L’Analisi delle Corrispondenze Multiple (ACM) può essere considerata, ad oggi, una delle tecniche statistiche più utilizzate per l’analisi “multipla” di dati quantitativi o misti rilevati attraverso questionari.
Obiettivo principale dell’ACM consiste nell’analisi delle relazioni esistenti tra un insieme di variabili qualitative osservate su un collettivo di unità statistiche.
Ciò avviene, come in tutte le tecniche di analisi fattoriale, attraverso la identificazione di uno spazio “ottimale”, di dimensione ridotta, sintesi dell’informazione strutturale contenuta nei dati originari.
In altre parole, il metodo conviene alla costruzione una serie di variabili latenti (o fattori), combinazione delle variabili originali, che esprimono alcuni concetti non direttamente osservabili nella realtà ma frutto della misurazione di un insieme di variabili.
L’estensione dei metodi fattoriali all’analisi delle relazioni esistenti tra un numero qualunque di variabili qualitative, organizzate in una matrice “individui x variabili“, nasce dalle idee dello psicologo Burt (1950) che studiò la possibilità di organizzare i dati attraverso una particolare codifica, chiamata codifica disgiuntiva completa, che porta alla formulazione, dopo alcune semplici trasformazioni, di una matrice a blocchi, nota come “matrice di Burt“.
Questa tabella rappresenta il punto di partenza dell’Analisi delle Corrispondenze Multiple.
Primo passo è quindi la trasformazione della matrice originaria X in una matrice Z di dimensioni (n x p) , che prende il nome di disgiuntiva completa.
Essa si presenta come una matrice a blocchi, in cui ogni blocco rappresenta l’insieme delle modalità dicotomizzate di una variabile (è misurata l’assenza o la presenza della modalità):
dove è una matrice formata da
colonne che rappresentano le
modalità della variabile q-esima. Ogni riga registra l’assenza (con 0) o la presenza (con 1) della modalità per la generica osservazione, la quale ovviamente può assumere 1 per un’unica modalità di ogni blocco .
Ogni colonna di Z è rappresentabile geometricamente come con un punto nello spazio di dimensione n delle unità e ogni riga come un punto nello spazio di dimensione p delle modalità.
La matrice disgiuntiva completa Z possiede le seguenti caratteristiche:
Il prodotto di Z per la sua trasposta definisce la matrice di Burt:
B=Z’Z
Questa rappresenta il punto di partenza dell’analisi fattoriale, analogamente a quanto avviene per la matrice di varianze e covarianze (oppure di correlazione) nell’Analisi in Componenti Principali.
La Matrice di Burt è una matrice quadrata di ordine p formata da blocchi distinguibili in due tipologie:
Definita la matrice di Burt, l’Analisi delle Corrispondenze Multiple può essere intesa come un caso particolare dell’Analisi in Componenti Principali.
Infatti, analogamente all’ACP, la ricerca del sottospazio ottimale avviene ricercando i fattori latenti che massimizzano l’inerzia (la variabilità) della nube dei punti proiettati su di essi.
L’ACM si caratterizza rispetto all’ACP per i seguenti elementi:
La soluzione ricavata nell’analisi consiste quindi nella ricerca degli r autovettori associati agli r autovalori con non banali della matrice ottenuta premoltiplicando la tabella di Burt per l’inversa di una matrice diagonale D di ordine p il cui generico elemento diagonale d corrisponde all’elemento diagonale di B.
La soluzione ottenuta, a meno di un fattore di scala, risulta essere la stessa sia per l’analisi condotta nello spazio delle unità sia per quella condotta nello spazio delle modalità.
Ciò implica che è possibile rappresentare con un unico grafico, il piano fattoriale, contemporaneamente gli individui e le modalità con tutte le implicazioni legate alla interpretazione della posizione assunta.
(nell’ACP i punti-variabile sono rappresentati nel grafico “cerchio delle correlazioni” mentre i punti-unità sul piano fattoriale delle variabili).
L’analisi delle corrispondenze presuppone la scelta di alcune decisioni che risultano poi essere cruciali nella ricerca della soluzione:
Il ricercatore deve individuare tra il set di variabili osservate, quali devono giocare il ruolo di attive e quali invece devono essere impiegate come supplementari (o illustrative).
Le variabili attive sono quelle che partecipano attivamente alla identificazione dello spazio di dimensione ridotto e quindi contribuiscono nella determinazione dei fattori considerati.
Le variabili supplementari sono invece quelle che vengono semplicemente proiettate, in un secondo momento, nello spazio identificato, quindi non partecipano alla individuazione della soluzione ma semplicemente aiutano ha descrivere meglio il fenomeno e i fattori latenti.
La scelta del ruolo da attribuire alle diverse variabili dipende strettamente dagli obiettivi di indagine che ci si propone, dalla natura dei caratteri considerati (se descrittivi del fenomeno o caratterizzanti la tipologia di unità statistica) e dalla opportunità di spiegare certi aspetti piuttosto che altri.
In altre parole si può dire che le variabili attive descrivono soggettivamente le unità mentre quelle illustrative determinano dei gruppi di osservazioni (si immagini il settore merceologico, la dimensione, il fatturato, ecc. per le aziende) e ne descrivono quindi l’appartenenza ad una certa “tipologia”.
La scelta avviene secondo i seguenti criteri:
Il numero degli autovalori è funzione della dimensione della matrice B, quindi ne deriva che al cresce della dimensione dell’analisi cresce anche il numero degli autovalori e si riduce di conseguenza la misura degli stessi.
In letteratura sono state proposte alcune formule che mirano a correggere la misura d’inerzia spiegata da ogni autovalore, così da rendere più facilmente applicabile il criterio della soglia. Tra di esse si ricorda la formula di rivalutazione del tasso di inerzia proposta da Benzécri (1979) che per p elevato si semplifica nella elevazione al quadrato di tutti gli autovalori.
Come già affermato in precedenza, le due soluzioni, per gli individui e le modalità, risultano coincidere, quindi è possibile pervenire ad un’unica rappresentazione grafica dei piani fattoriali congiuntamente ai punti-unità e ai punti-modalità.
Il centro di un piano fattoriale è il punto di bilanciamento della nuvola dei punti, quindi sono i punti lontani da esso che devono essere considerati nella interpretazione del significato di un’asse. Tale operazione è supportata dall’analisi dei contributi assoluti.
Il contributo assoluto rappresenta il contributo della modalità i-esima alla determinazione di un determinato fattore ed è ottenuto moltiplicando il punteggio del punto (la coordinata sul fattore) per la sua massa (frequenza della modalità).
La misura dei contributi è fondamentale per l’interpretazione di un fattore perché questo sarà denominato in funzione delle modalità che più lo compongono. La semplice ispezione visiva della posizione non permette di percepire l’importanza complessiva del punto in quanto non è possibile distinguere tra punti pesanti (con elevata frequenza) e punti leggeri.
Il contributo relativo è una misura della qualità della rappresentazione dei punti sugli assi.
Il contributo relativo di un punto è dato dal quadrato del coseno dell’angolo formato dal vettore proiezione del punto i e il vettore relativo al punto i nel proprio spazio originario.
Un punto sarà tanto meglio rappresentato nello spazio quanto più il valore del coseno al quadrato si avvicina a 1.
Per i punti che sono caratterizzati da un contributo relativo basso, si può desumere una elevata distorsione della rappresentazione e quindi la loro posizione non può essere valutata nell’interpretazione della soluzione.
Il metodo dell’ACM gode delle seguenti proprietà geometriche:
Il passaggio dal sistema di coordinate nello spazio delle modalità a quello delle unità è automatico in quanto i due sistemi sono caratterizzati dalla stessa metrica.
Visto che il centro degli assi rappresenta il baricentro della nuvola dei punti, allora nella interpretazione degli stessi si farà riferimento ai punti-modalità e ai punti-unità che assumono coordinate più elevate e che quindi si trovano maggiormente distanti dal centro.
Solitamente, un fattore è denominato (interpretato) giustapponendo le modalità che si trovano nelle posizioni estreme (rispetto al centro) secondo le seguenti regole:
NB.
La vicinanza tra due punti su un asse, lontano dall’origine, è un buon indice di dipendenza tra le entità corrispondenti se è anche elevato il contributo assoluto di entrambe!!!
Spesso si possono evidenziare alcune forme tipiche della soluzione a seconda del legame esistente tra le modalità proiettate:
a) Ellissoide
È la forma più comune di una configurazione fattoriale, con l’asse maggiore dell’ellisse che esprime la maggior parte dell’informazione e quindi rappresenta il fattore più importante. In presenza di questa forma si ha una interpretazione facilitata dal fatto che i fattori sono bipolari, cioè vi sono due gruppi opposti di modalità che descrivono ogni fattore (i due estremi dal baricentro) e ne consentono la denominazione;
b) Nuvole Separate
Si è in presenza di due insiemi separate che evidentemente esprimono due tipologie di informazioni diverse contenute nei dati. Per migliorare l’analisi e rendere interpretabili i fattori, di solito, si ricorre allo svolgimento di due analisi separate per i due blocchi. Inoltre, è interessante osservare che se uno dei due blocchi è formato da poche modalità che rappresentano un’eccezione si potrebbe anche scegliere di escluderle e rifare l’analisi così da valutare l’influenza delle stesse sui risultati ottenuti.
c) Ferro di Cavallo
La forma a ferro di cavallo o ad arco è nota in letteratura anche come effetto Guttman, ed è piuttosto comune nelle applicazioni di analisi delle corrispondenze. Ciò si verifica quando vi è un ordine intrinseco tra le modalità delle variabili (quale ad esempio una scala di giudizi di soddisfazione) e di conseguenza la maggior parte delle modalità si trova nei pressi del baricentro, mentre alcuni punti risultano essere molto lontani da questo.
d) Triangolo
Questa figura è ottenuta in quelle situazioni in cui un asse (di solito il primo) spiega l’assenza o la presenza di un fenomeno e l’altro invece misura, solo per un lato del piano (cioè la parte ampia del triangolo), l’intensità del possesso.
In questi casi si dice che il fattore (secondo asse) che determina la forma della configurazione è unipolare in quanto assume valori elevati solo da una parte.
Nella prossima lezione si affronteranno i seguenti argomenti:
2. Scale di misura, scale di atteggiamenti e indicatori sociali
3. Alcune scale per la misurazione di atteggiamenti
5. L'Analisi in Componenti Principali
6. Introduzione all'utilizzo del software statistico Tanagra
7. Analisi delle Componenti Principali con il software statistico Tanagra
8. L'Analisi delle Corrispondenze Multiple
9. Analisi delle Corrispondenze Multiple con il software statistico TANAGRA
10. Introduzione alla Cluster Analysis
11. Cluster Analysis Gerarchica
12. Cluster Analysis non Gerarchica