L’associazione fra due variabili qualitative
Premessa:
Finalità frequente di studi statistici è la ricerca di relazioni di causa-effetto e/o associazione allo scopo di:
- interpretare;
- prevedere;
- simulare e controllare i fenomeni reali.
Per conseguire tale obiettivo è necessario enfatizzare il concetto di contemporaneo verificarsi di insiemi di modalità su una data unità statistica.
Distribuzioni multiple
- Si ottiene una distribuzione multipla, quando su ogni unità statistica vengono rilevati, congiuntamente, due o più caratteri statistici (qualitativi e/o quantitativi).
- Si parla di variabile doppia, tripla, n -pla, a seconda che le variabili rilevate siano, 2, 3 oppure n.
Tabella di contingenza
- Una tabella di contingenza è una tabella costituita da righe che rappresentano i possibili valori (o categorie) di una variabile e da colonne che rappresentano i possibili valori (o categorie) di una seconda variabile. I dati nel corpo della tabella sono il numero di volte in cui compare ogni coppia di valori/categorie.
- A due vie e a più vie
Tabella di contingenza a due vie: Struttura
Tabella di contingenza
(X,Y)
(x1,y1) , (x2,y2) , (xN,yN) Rilevazione statistica doppia
- Le variabili univariate X e Y vengono dette componenti.
- La conoscenza della distribuzione doppia permette la conoscenza delle componenti ma non è vero il contrario.
Frequenze marginali e frequenze totali
Distribuzioni condizionate
- Data una distribuzione doppia (X, Y), la distribuzione condizionata Y |xi, è la distribuzione semplice che si ottiene se si fissa X=xi e si limita l’analisi della variabile Y ai soli soggetti per cui risulta X = xi.
- Analogamente, si può fissare Y=yj e studiare la distribuzione, semplice, di X.
Indipendenza
Le due componenti X ed Y della distribuzione doppia (X, Y) si dicono indipendenti se non esiste alcun tipo di legame tra X ed Y (e per simmetria tra Y ed X).
Condizione di indipendenza
- Qualunque valore di X non deve modificare la distribuzione di Y (e viceversa).
- In altri termini, le distribuzioni condizionate Y|X=xi non variano per ogni i, e quindi le frequenze relative condizionate nij/ni. non variano.
- Analogamente, le distribuzioni condizionate X|Y=yj non variano per ogni j, e quindi le frequenze relative condizionate nij/nj non variano.
Frequenza teoriche sotto l'ipotesi di indipendenza
Connessione tra mutabili doppie
- Un indice per lo studio della relazione tra due mutabili è il chi quadro (Χ2), in grado di mettere in evidenza il livello di connessione tra due variabili qualitative.
- Esso confronta le frequenze osservate con quelle teoriche sotto l’ipotesi di indipendenza.
- Il quadrato serve ad evitare che scarti positivi e negativi si compensino.
- La frazione serve per eliminare l’effetto del quadrato e per relativizzare lo scarto rispetto alla grandezza della frequenza.
Connessione tra mutabili doppie
- L’indice chi quadro (Χ2) dipende dalla numerosità del collettivo, cosicché, a parità di associazione, il suo valore aumenta all’aumentare di N.
- Generalmente, nello studio dell’indipendenza tra due mutabili, si preferisce utilizzare degli indici “normalizzati” che diano misure non dipendenti dalla numerosità.
Indici di strettezza della connessione
- L’indice di contingenza quadratica media (Χ2) di Pearson Φ2 = Χ2/N
- In caso di indipendenza assume il suo valore minimo che è zero. Il valore massimo è pari a 1 solo quando il numero di righe o il numero di colonne è uguale a 2, altrimenti risulta maggiore di 1.
Indici di strettezza della connessione
Cramér ha proposto di normalizzare l’indice Χ2 rapportandolo al suo valore massimo.
Proprietà dell’indice V di Cramér:
- 0≤V ≤1
- V=0 se i caratteri sono indipendenti
- V=1 se vi è dipendenza o interdipendenza perfetta
Prossima lezione
L’associazione tra due variabili
- L’associazione fra una variabile quantitativa ed una qualitativa
- L’associazione fra due variabili quantitative
- La covarianza e la correlazione