Vai alla Home Page About me Courseware Federica Living Library Federica Federica Podstudio Virtual Campus 3D Le Miniguide all'orientamento Gli eBook di Federica La Corte in Rete
 
 
Il Corso Le lezioni del Corso La Cattedra
 
Materiali di approfondimento Risorse Web Il Podcast di questa lezione

Roberta Siciliano » 14.Analisi delle Corrispondenze Multiple


Obiettivi e contenuti

Obiettivo

Introduzione all’analisi multivariata dei dati qualitativi.
Comprendere la base metodologica per l’applicazione dell’Analisi delle Corrispondenze Multiple (ACM).

Contenuti

L’obiettivo dell’ACM
La matrice di Burt
Aspetti metodologici dell’ACM
Il ruolo delle variabili
La dispersione dei “profili”
I fattori estraibili
L’inerzia spiegata e la correzione di Benzecrì
I passi dell’ACM
Caso studio: gli utenti di Ebay

L’obiettivo dell’ACM

E’ un’analisi di tipo fattoriale che ha come scopo quello di individuare dimensioni soggiacenti alla struttura dei dati, dimensioni intese a riassumere l’intreccio di relazioni di “interdipendenza” tra le variabili originarie.

L’analisi delle corrispondenze (ACM) trasforma una tabella di Burt contenente tutti gli incroci tra coppie di caratteri qualitativi in una rappresentazione grafica al fine di facilitare l’interpretazione dell’informazione contenuta nella tabella stessa.

La tabella di Burt

Si mostra un esempio di tabella di Burt relativa a tre caratteri X con tre modalità, Y con due modalità, Z con tre modalità.
Sono rappresentati tutti gli incroci tra coppie di caratteri, mostrando tutte le possibili tabelle di contingenza. Ovviamente le tabelle sulla diagonale prodotte dall’incrocio di ciascun carattere con se stesso illustra le distribuzioni semplici di ciascun carattere sulla diagonale della tabella.

Esempio di matrice di Burt

Esempio di matrice di Burt


Aspetti metodologici dell’ACM

Caratteristiche: è l’applicazione dell’ACP alla matrice di Burt.

 

Obiettivo: individuare le associazioni che possono sussistere tra più variabili qualitative, attraverso il confronto dei profili riga e colonna rispetto al loro baricentro rappresentato dalla distribuzione marginale corrispondente.

 

Ambiti di applicazione: analisi di dati provenienti da indagini effettuate mediante questionario (per esempio per analizzare un segmento di mercato o per lanciare un nuovo prodotto).

Il ruolo delle variabili

Nell’ACM possiamo distinguere due tipologie di variabili:

  • attive, cioè variabili che entrano direttamente nell’analisi concorrendo alla formazione degli assi fattoriali
  • supplementari o illustrative, cioè variabili di tipo “passivo” che sono escluse dalla fase di estrazione dei fattori, ma si utilizzano successivamente considerando la loro posizione sugli assi fattoriali come ausilio per la loro interpretazione

La dispersione dei “profili”

Per valutare la dispersione dei profili, riga e colonna, rispetto al loro “centro di gravità” viene utilizzata la metrica del Chi2.

L’inerzia totale è proporzionale al Chi2 ma non è esattamente uguale al rapporto tra il Chi2 e il numero di osservazioni.

Essa è funzione del numero di modalità (q) e del numero di variabili attive (p):

Inerzia=(q-p)/p

I fattori estraibili

Vengono estratti degli assi fattoriali, ortogonali tra loro, che spiegano ciascuno, in ordine decrescente, il massimo della variabilità della matrice dei dati (inerzia).
Il numero massimo di fattori estraibili è pari al numero di modalità (q) meno il numero di variabili attive (p).
I fattori da considerare si determinano in base alla loro rilevanza, ovvero alla quota di inerzia totale che spiegano.

La correzione di Benzecrì

Benzecrì indica un limite, pari a 1 diviso il numero di variabili attive (=1/p), al di sotto del quale l’autovalore, e, dunque, il fattore ad esso associato, diviene insignificante (correzione di Benzecrì).
Per interpretare il significato degli assi fattoriali, assieme alle coordinate fattoriali, si utilizzano i seguenti indicatori:

  • la massa, ovvero la frequenza relativa della modalità rapportata al numero di variabili attive
  • il contributo assoluto
  • il contributo relativo (coseno quadrato)

L’inerzia spiegata dai primi fattori

Tipicamente nell’ACM le quote di inerzia spiegate dai primi fattori non sono molto elevate a causa del grande numero di modalità, e di conseguenza di variabilità, presente nella matrice dei dati.

Talora può risultare interessante ripetere l’ACM dopo aver ripulito la matrice dei dati compattando le categorie che nella prima analisi non presentano contributi assoluti abbastanza elevati sui fattori considerati; in questo modo infatti si riduce l’inerzia globale (q diminuisce mentre p rimane fisso).

I passi dell’ACM

I passi principali dell’interpretazione dei risultati dell’ACM sono:
Esaminare le entrate della matrice di Burt (quali coppie di modalità si presentano con maggior frequenza e quali mai)
Le variabili latenti vengono interpretate in ordine crescente d’importanza analizzando le modalità che contribuiscono maggiormente alla spiegazione dell’inerzia totale
Si esaminano graficamente le proiezioni dei punti riga nel piano formato dalle dimensioni latenti (le prime due e così via)

Caso studio: gli utenti “ebay”

Nel file dell’”Indagine_utenti_Ebay” sono presenti le risposte degli utenti (acquirenti e/o venditori) di Ebay (la più grande piattaforma al mondo di aste on-line) ad una serie di domande che avevano lo scopo di dare una spiegazione ad un semplice quesito:
Come mai 135 milioni di persone si fidano di un perfetto sconosciuto?

Il campione (70 individui), per semplicità di calcolo, non è rappresentativo dell’intera popolazione ed è composto esclusivamente da utenti italiani.

Esempio di matrice di dati (indagine ebay)

Esempio di matrice di dati (indagine ebay)


La selezione delle variabili

Si inseriscono le variabili oggetto dell’analisi quale Input, mentre le variabili socio-demografiche in supplementare saranno inserite come Illustrative.

Selezione delle variabili con software Tanagra

Selezione delle variabili con software Tanagra


L’output dell’ACM

L’output dell’ACM solitamente contiene tre tabelle:

  • nella prima è presente l’elenco degli autovalori e l’inerzia spiegata da ciascuno di loro
  • nella seconda tabella si trovano le coordinate di ciascuna modalità
  • nella terza è indicato il coseno al quadrato di ciascuna modalità

N.B. Talvolta la correzione di Benzecrì non è implementata nei software statistici, quindi si avranno percentuali di inerzia spiegata molto basse.

Il piano fattoriale

Primo piano fattoriale (indagine ebay)

Primo piano fattoriale (indagine ebay)


Illustrazione delle variabili sul piano fattoriale


L’interpretazione del primo asse fattoriale

Appare evidente che per valori positivi del primo asse abbiamo utenti molto “globalizzati” sia perché trattano con altri utenti stranieri sia perché si affidano molto nelle loro ricerche ad internet.

Per valori negativi del primo asse si hanno utenti, pur di vecchia data, che sono insoddisfatti di alcune garanzie di Ebay (garanzie legali e feedback).

Attenzione a non farsi ingannare dalla presenza della modalità “Valutazione Garanzie legali: ottime” che appare in contrasto con quanto detto in precedenza. Tale modalità, infatti, ha un valore Test inferiore al limite 3, non contribuendo in maniera significativa alla spiegazione dell’asse.

L’interpretazione del secondo asse fattoriale

Per valori negativi del secondo asse appaiono utenti molto legati a tipologie di pagamento “antiquate” (vaglia postale e contrassegno) e come spedizione preferiscono la consegna a mano.
Inoltre, per una conferma è sufficiente aggiungere come Input le variabili età e titolo di studio per vedere che in tale zona si concentrano coloro che hanno oltre 50 anni di età e con licenza media.

I materiali di supporto della lezione

M. Gherghi, C. N. Lauro (2008), Introduzione all'Analisi dei dati multidimensionali, RCE, Napoli

L. Lebart, A. Morineau, M. Piron (1999), Statistique exploratoire multidimensionelle, Paris

L. Lebart, A. Morineau, K. Warwick (1984), Multivariate descriptive statistical analysis, J. Wiley,New York.

S. Bolasco (1999), Analisi multidimensionale dei dati, Carocci.

  • Contenuti protetti da Creative Commons
  • Feed RSS
  • Condividi su FriendFeed
  • Condividi su Facebook
  • Segnala su Twitter
  • Condividi su LinkedIn
Progetto "Campus Virtuale" dell'Università degli Studi di Napoli Federico II, realizzato con il cofinanziamento dell'Unione europea. Asse V - Società dell'informazione - Obiettivo Operativo 5.1 e-Government ed e-Inclusion