Vai alla Home Page About me Courseware Federica Living Library Federica Federica Podstudio Virtual Campus 3D Le Miniguide all'orientamento Gli eBook di Federica La Corte in Rete
 
I corsi di Economia
 
Il Corso Le lezioni del Corso La Cattedra
 
Materiali di approfondimento Risorse Web Il Podcast di questa lezione

Roberta Siciliano » 11.Market Basket Analysis


Obiettivi e contenuti

Obiettivi

Apprendere le metodologie della Market Basket Analysis.

Contenuti

  • Definizione di Market Basket Analysis
  • I dati
  • Le metodologie per la MBA
  • Esempi

Market Basket Analysis

Definizione: è una metodologia orientata all’identificazione delle relazioni esistenti tra una vasto numero di prodotti acquistati da differenti consumatori

Origine: nasce come tecnica di supporto delle decisioni nel settore grande distribuzione.

Per rispondere a domande del tipo:

  • Quali prodotti porre in vendita?
  • Su quali prodotti focalizzare le offerte promozionali (punti, carte fidelity, ecc.)?
  • Come ottimizzare il posizionamento dei prodotti negli scaffali?

La matrice dei dati

  • I dati consistono nelle registrazioni delle transazioni di acquisto effettuate dai consumatori in un dato momento
  • Nelle righe della matrice sono riportate le transazioni effettuate in un dato momento (baskets)
  • Nelle colonne sono riportati i prodotti (items) di cui è registrata l’assenza o la presenza nel basket

Un esempio di matrice dei dati


La MBA attraverso le Regole Associative

Introdotte da Agrawal, Imielinski e Swami (1993), hanno come obiettivi:

  • identificare set di attributi, denominati items, che frequentemente ricorrono insieme
  • Formulare regole che caratterizzano la relazione esistente tra items

Le regole associative

Considerato un insieme I di m distinti attributi ed un database T di transazioni dove ogni transazione t è un insieme di attributi contenuto in I.
Una regola di associazione è un’implicazione del tipo: X→Y

con Supporto pari a Sup (X→Y) = P (X∩Y)

e Confidenza pari a Conf (X→Y) = P (Y|X)

Processo di generazione delle regole

  • Specificazione dei vincoli:
    • Sintattici
    • Sul supporto (minsup) e la confidenza (minconf)
  • Identificazione dei large itemsets
  • Generazione delle regole

Regole di associazione: un esempio

pane → burro

Sup (pane →burro)=0.56

Conf (pane →burro)=0.72

La regola ha un supporto del 56% ed una confidenza del 72%.
Ciò indica che il 56% delle transazioni in T riguardano l’acquisto di pane e burro e che inoltre il 72% dei consumatori che acquistano pane acquistano anche burro.

Algoritmi efficienti per la generazione delle regole

  • a-priori
  • a-priori TID
  • AIS
  • Subset Function
  • SETM

Tutti questi algoritmi si fondano sul principio per cui se un large itemset ha supporto inferiore al minsup allora anche tutte le regole generate da questo avranno supporto inferiore al minsup. Cio consente di non investigare tutte le possibili regole ma solo quelle che di volta in volta sono ritenute interessanti.

Modelli grafici per la MBA

Sono tecniche grafiche che consentono la visualizzazione di un notevole insieme di regole di associazione senza perdere le informazioni necessarie alla comprensione dei risultati.

  • Visual Rules di SAS e IBM
  • Lo Scatterplot
  • Il Doubledecker Plot
  • La matrice grafica Mosaic Plot
  • I modelli grafi

Approcci classici di visualizzazione delle regole:1° esempio – SAS Enterprise Miner


Approcci classici di visualizzazione delle regole:2° esempio – The Intelligent Miner IBM


Approcci classici di visualizzazione delle regole:3° esempio – lo Scatterplot


Approcci classici di visualizzazione delle regole:4° esempio – lo Scatterplot con aree di supporto e confidenza minima


Approcci classici di visualizzazione delle regole

Vantaggi

  • Semplicità di interpretazione
  • Implementazione in un software (SAS)
  • Impiego dei colori come dimensione aggiuntiva

Svantaggi

  • Problemi di approssimazione: il lie-factor
  • Visualizzazione di regole formate da due soli items

Il Doubledecker Plot

  • Il doubledecker plot consente la visualizzazione contemporanea di regole multiple
  • Ogni barra o insieme di barre rappresenta una regola
  • Il supporto di una regola è rappresentato dall’area evidenziata in rosso nella barra corrispondente
  • La confidenza è pari alla proporzione dell’area evidenziata sull’area totale della barra

 

Esempio di Doubledecker plot (datset SAS Enterprice Miner)

Esempio di Doubledecker plot (datset SAS Enterprice Miner)


Il Mosaic Plot

Introdotto da Hofman e Wilhem (2000) consente la comparazione visiva di una matrice di regole attraverso l’impiego di una nuova misura del grado di interesse di una regola di associazione:

Difference of Confidence (DOC)

doc(X→Y)=[conf(X→Y)conf(-X→Y)]

Che può essere rappresentata con un doubledecker plot.


Vantaggi della generazione delle regole attraverso la doc

 

  • la misura del grado di interesse di una regola non è influenzata dalla grandezza del supporto
  • la significatività della doc di una regola può essere valutata attraverso un test statistico

Ho: doc =0

H1 : doc >o

 

dove p1 e p2 sono rispettivamente
che per n1 e n2 sufficientemente grandi si approssima ad una distribuzione normale

Esempio di Mosaic Plot matrice di regole con 2 items. dataset Accos (SAS software)


L’approccio dei Grafi

  • Introdotto da Giudici e Passerone (2000) consente la generazione e visualizzazione delle regole interessanti attraverso l’impiego di una misura l’odds ratio alternativa al supporto e alla confidenza.
  • La metodologia si sviluppa in 3 fasi:

1. costruzione degli odds ratios
2. visualizzazione delle regole
3. potatura delle regole

Costruzione degli Odds Ratios

Dalla matrice originaria (transazioni x items) si costruiscono tutte le possibili matrici di contingenza tra gli items

Siano A e B due items, si definisce odds il rapporto: con i=1,2

Si definisce odds ratio il rapporto tra gli odds:

L’odds ratio assume valori non negativi e la sua distanza dall’unità misura la forza del legame esistente tra gli items A e B

Visualizzazione delle regole attraverso i grafi

Un grafo, G=(V,E) è un oggetto costituito da un insieme finito V di vertici (chiamati anche nodi), e un insieme finito E di archi che collegano questi vertici.

La forza di una relazione è espressa dalla misura dell’odds ratio ad essa associato.
Una relazione tra due items è significativa (e l’arco è disegnato) se l’intervallo di confidenza dell’odds ratio ad essa relativo non contiene 1.

W, X, Y, Z sono gli items (nodi).WX, WY, YX, XZ sono le relazioni tra gli items (archi).

W, X, Y, Z sono gli items (nodi).WX, WY, YX, XZ sono le relazioni tra gli items (archi).


Esempio 1: Grafo delle relazioni significative tra 26 prodotti alimentari(dati AC Nielsen, 1997)


Esempio 2: Grafo delle relazioni significative tra 26 prodotti alimentari con odds ratio maggiore di 5(dati AC Nielsen, 1997)


  • Contenuti protetti da Creative Commons
  • Feed RSS
  • Condividi su FriendFeed
  • Condividi su Facebook
  • Segnala su Twitter
  • Condividi su LinkedIn
Progetto "Campus Virtuale" dell'Università degli Studi di Napoli Federico II, realizzato con il cofinanziamento dell'Unione europea. Asse V - Società dell'informazione - Obiettivo Operativo 5.1 e-Government ed e-Inclusion