Obiettivo
Introduzione all’analisi multivariata dei dati qualitativi.
Comprendere la base metodologica per l’applicazione dell’Analisi delle Corrispondenze Multiple (ACM).
Contenuti
L’obiettivo dell’ACM
La matrice di Burt
Aspetti metodologici dell’ACM
Il ruolo delle variabili
La dispersione dei “profili”
I fattori estraibili
L’inerzia spiegata e la correzione di Benzecrì
I passi dell’ACM
Caso studio: gli utenti di Ebay
E’ un’analisi di tipo fattoriale che ha come scopo quello di individuare dimensioni soggiacenti alla struttura dei dati, dimensioni intese a riassumere l’intreccio di relazioni di “interdipendenza” tra le variabili originarie.
L’analisi delle corrispondenze (ACM) trasforma una tabella di Burt contenente tutti gli incroci tra coppie di caratteri qualitativi in una rappresentazione grafica al fine di facilitare l’interpretazione dell’informazione contenuta nella tabella stessa.
Si mostra un esempio di tabella di Burt relativa a tre caratteri X con tre modalità, Y con due modalità, Z con tre modalità.
Sono rappresentati tutti gli incroci tra coppie di caratteri, mostrando tutte le possibili tabelle di contingenza. Ovviamente le tabelle sulla diagonale prodotte dall’incrocio di ciascun carattere con se stesso illustra le distribuzioni semplici di ciascun carattere sulla diagonale della tabella.
Caratteristiche: è l’applicazione dell’ACP alla matrice di Burt.
Obiettivo: individuare le associazioni che possono sussistere tra più variabili qualitative, attraverso il confronto dei profili riga e colonna rispetto al loro baricentro rappresentato dalla distribuzione marginale corrispondente.
Ambiti di applicazione: analisi di dati provenienti da indagini effettuate mediante questionario (per esempio per analizzare un segmento di mercato o per lanciare un nuovo prodotto).
Nell’ACM possiamo distinguere due tipologie di variabili:
Per valutare la dispersione dei profili, riga e colonna, rispetto al loro “centro di gravità” viene utilizzata la metrica del Chi2.
L’inerzia totale è proporzionale al Chi2 ma non è esattamente uguale al rapporto tra il Chi2 e il numero di osservazioni.
Essa è funzione del numero di modalità (q) e del numero di variabili attive (p):
Inerzia=(q-p)/p
Vengono estratti degli assi fattoriali, ortogonali tra loro, che spiegano ciascuno, in ordine decrescente, il massimo della variabilità della matrice dei dati (inerzia).
Il numero massimo di fattori estraibili è pari al numero di modalità (q) meno il numero di variabili attive (p).
I fattori da considerare si determinano in base alla loro rilevanza, ovvero alla quota di inerzia totale che spiegano.
Benzecrì indica un limite, pari a 1 diviso il numero di variabili attive (=1/p), al di sotto del quale l’autovalore, e, dunque, il fattore ad esso associato, diviene insignificante (correzione di Benzecrì).
Per interpretare il significato degli assi fattoriali, assieme alle coordinate fattoriali, si utilizzano i seguenti indicatori:
Tipicamente nell’ACM le quote di inerzia spiegate dai primi fattori non sono molto elevate a causa del grande numero di modalità, e di conseguenza di variabilità, presente nella matrice dei dati.
Talora può risultare interessante ripetere l’ACM dopo aver ripulito la matrice dei dati compattando le categorie che nella prima analisi non presentano contributi assoluti abbastanza elevati sui fattori considerati; in questo modo infatti si riduce l’inerzia globale (q diminuisce mentre p rimane fisso).
I passi principali dell’interpretazione dei risultati dell’ACM sono:
Esaminare le entrate della matrice di Burt (quali coppie di modalità si presentano con maggior frequenza e quali mai)
Le variabili latenti vengono interpretate in ordine crescente d’importanza analizzando le modalità che contribuiscono maggiormente alla spiegazione dell’inerzia totale
Si esaminano graficamente le proiezioni dei punti riga nel piano formato dalle dimensioni latenti (le prime due e così via)
Nel file dell’”Indagine_utenti_Ebay” sono presenti le risposte degli utenti (acquirenti e/o venditori) di Ebay (la più grande piattaforma al mondo di aste on-line) ad una serie di domande che avevano lo scopo di dare una spiegazione ad un semplice quesito:
Come mai 135 milioni di persone si fidano di un perfetto sconosciuto?
Il campione (70 individui), per semplicità di calcolo, non è rappresentativo dell’intera popolazione ed è composto esclusivamente da utenti italiani.
Si inseriscono le variabili oggetto dell’analisi quale Input, mentre le variabili socio-demografiche in supplementare saranno inserite come Illustrative.
L’output dell’ACM solitamente contiene tre tabelle:
N.B. Talvolta la correzione di Benzecrì non è implementata nei software statistici, quindi si avranno percentuali di inerzia spiegata molto basse.
Appare evidente che per valori positivi del primo asse abbiamo utenti molto “globalizzati” sia perché trattano con altri utenti stranieri sia perché si affidano molto nelle loro ricerche ad internet.
Per valori negativi del primo asse si hanno utenti, pur di vecchia data, che sono insoddisfatti di alcune garanzie di Ebay (garanzie legali e feedback).
Attenzione a non farsi ingannare dalla presenza della modalità “Valutazione Garanzie legali: ottime” che appare in contrasto con quanto detto in precedenza. Tale modalità, infatti, ha un valore Test inferiore al limite 3, non contribuendo in maniera significativa alla spiegazione dell’asse.
Per valori negativi del secondo asse appaiono utenti molto legati a tipologie di pagamento “antiquate” (vaglia postale e contrassegno) e come spedizione preferiscono la consegna a mano.
Inoltre, per una conferma è sufficiente aggiungere come Input le variabili età e titolo di studio per vedere che in tale zona si concentrano coloro che hanno oltre 50 anni di età e con licenza media.
1. Introduzione alla statistica per le decisioni di impresa
2. L'organizzazione dei dati statistici
3. L'analisi di regressione lineare multipla
4. I test diagnostici sulla regressione lineare multipla
5. L'uso delle variabili dicotomiche nella regressione
6. Il modello di regressione logistica
7. Modelli Additivi Generalizzati
8. Modelli lineari per l'analisi delle serie storiche
9. Modelli stocastici per l'analisi delle serie storiche
10. L'analisi delle preferenze: introduzione al Multidimensional Scaling
12. Metodi di segmentazione binaria e alberi di decisione
13. Analisi delle Componenti Principali
14. Analisi delle Corrispondenze Multiple
15. Cluster Analysis
M. Gherghi, C. N. Lauro (2008), Introduzione all'Analisi dei dati multidimensionali, RCE, Napoli
L. Lebart, A. Morineau, M. Piron (1999), Statistique exploratoire multidimensionelle, Paris
L. Lebart, A. Morineau, K. Warwick (1984), Multivariate descriptive statistical analysis, J. Wiley,New York.
S. Bolasco (1999), Analisi multidimensionale dei dati, Carocci.