Obiettivi
Apprendere le metodologie della Market Basket Analysis.
Contenuti
Definizione: è una metodologia orientata all’identificazione delle relazioni esistenti tra una vasto numero di prodotti acquistati da differenti consumatori
Origine: nasce come tecnica di supporto delle decisioni nel settore grande distribuzione.
Per rispondere a domande del tipo:
Introdotte da Agrawal, Imielinski e Swami (1993), hanno come obiettivi:
Le regole associative
Considerato un insieme I di m distinti attributi ed un database T di transazioni dove ogni transazione t è un insieme di attributi contenuto in I.
Una regola di associazione è un’implicazione del tipo: X→Y
con Supporto pari a Sup (X→Y) = P (X∩Y)
e Confidenza pari a Conf (X→Y) = P (Y|X)
pane → burro
Sup (pane →burro)=0.56
Conf (pane →burro)=0.72
La regola ha un supporto del 56% ed una confidenza del 72%.
Ciò indica che il 56% delle transazioni in T riguardano l’acquisto di pane e burro e che inoltre il 72% dei consumatori che acquistano pane acquistano anche burro.
Tutti questi algoritmi si fondano sul principio per cui se un large itemset ha supporto inferiore al minsup allora anche tutte le regole generate da questo avranno supporto inferiore al minsup. Cio consente di non investigare tutte le possibili regole ma solo quelle che di volta in volta sono ritenute interessanti.
Sono tecniche grafiche che consentono la visualizzazione di un notevole insieme di regole di associazione senza perdere le informazioni necessarie alla comprensione dei risultati.
Vantaggi
Svantaggi
Introdotto da Hofman e Wilhem (2000) consente la comparazione visiva di una matrice di regole attraverso l’impiego di una nuova misura del grado di interesse di una regola di associazione:
Difference of Confidence (DOC)
doc(X→Y)=[conf(X→Y)conf(-X→Y)]
Che può essere rappresentata con un doubledecker plot.
Ho: doc =0
H1 : doc >o
dove p1 e p2 sono rispettivamente
che per n1 e n2 sufficientemente grandi si approssima ad una distribuzione normale
1. costruzione degli odds ratios
2. visualizzazione delle regole
3. potatura delle regole
Dalla matrice originaria (transazioni x items) si costruiscono tutte le possibili matrici di contingenza tra gli items
Siano A e B due items, si definisce odds il rapporto: con i=1,2
Si definisce odds ratio il rapporto tra gli odds:
L’odds ratio assume valori non negativi e la sua distanza dall’unità misura la forza del legame esistente tra gli items A e B
Un grafo, G=(V,E) è un oggetto costituito da un insieme finito V di vertici (chiamati anche nodi), e un insieme finito E di archi che collegano questi vertici.
La forza di una relazione è espressa dalla misura dell’odds ratio ad essa associato.
Una relazione tra due items è significativa (e l’arco è disegnato) se l’intervallo di confidenza dell’odds ratio ad essa relativo non contiene 1.
1. Introduzione alla statistica per le decisioni di impresa
2. L'organizzazione dei dati statistici
3. L'analisi di regressione lineare multipla
4. I test diagnostici sulla regressione lineare multipla
5. L'uso delle variabili dicotomiche nella regressione
6. Il modello di regressione logistica
7. Modelli Additivi Generalizzati
8. Modelli lineari per l'analisi delle serie storiche
9. Modelli stocastici per l'analisi delle serie storiche
10. L'analisi delle preferenze: introduzione al Multidimensional Scaling
12. Metodi di segmentazione binaria e alberi di decisione
13. Analisi delle Componenti Principali
14. Analisi delle Corrispondenze Multiple
15. Cluster Analysis