La relazione tra due variabili dicotomiche è descrivibile attraverso la tabulazione incrociata.
Il prodotto della tabulazione incrociata è la tabella di contingenza.
Legenda
Frequenza di cella = a, b, c, d = nij
Marginale riga a + b ; c + d
Marginale colonna a + c ; b + d
Diagonale maggiore a + d = D
Diagonale minore b + c = d
Prodotto incrociato a*d – b*c
Come per le tabelle di contingenza con variabili con più di due modalità è consigliabile prendere sempre in visione le percentuali di riga o le percentuali di colonna.
Calcolo delle %: esempio. Fonte: Marradi A., 1997, Linee guida per l'analisi bivariata dei dati nelle scienze sociali, Franco Angeli, Milano.
Si riporta a lato un esempio.
I coefficienti utilizzati per sintetizzare l’associazione tra variabili dicotomiche si basano tutti sul prodotto incrociato (cross-product).
Infatti
5*5 = 25
6*4 = 24
7*3 = 21
8*2 = 16
9*1 = 9
1. Q di Yule (Undy Yule, 1912)
2. φ di Kendall
3. D Simmetrico (Somers R.H., 1962)
Al denominatore si sommano le due frequenze di cella della stessa diagonale per evitare moltiplicandi troppo piccoli.
4. τc
Di seguito saranno esposte varie situazioni che possono verificarsi in sede di analisi dei dati.
Le variabili dicotomiche considerate sono:
1 marginale bilanciato e 1 marginale sbilanciato
La relazione appare debole → i valori dei coefficienti dovrebbero essere bassi
Prodotto incrociato = (35*10)-(30*5) = 350-150 = 200
La stima di φ, Dsim τc è accettabile (vicini allo 0)
Q tende a sovrastimare la relazione (vicino ad 1)
1marginale bilanciato e 1marginale abbastanza bilanciato
La relazione appare inesistente → i valori dei coefficienti dovrebbero essere molto vicini a 0
La stima di φ, Dsim, τc, Q è accettabile (vicini allo 0).
Marginali sbilanciati con 1 o 3 celle semivuote
La relazione appare debole in entrambi i casi _ i valori dei coefficienti dovrebbero essere vicini allo 0.
Corner Correlation: La stima di τc è accettabile (vicino allo 0);
Three-corner Correlation: φ, Dsim e Q sovra stimano molto, ma sono accettabili.
Note su Dsim
Dsim stima bene se ci sono poche celle con frequenze basse;
Dsim non stima bene se ci sono molte celle con frequenze basse.
Marginali sbilanciati 2 celle semivuote.
La relazione appare perfetta in entrambi i casi → i valori dei coefficienti dovrebbero essere vicini ad 1
La stima di τc non è accettabile (vicino allo 0.)
Dall’esempio di prima si evince che τc raggiunge il massimo non solo quando una delle due diagonali è vuota ma anche quando le frequenze nelle celle dell’altra diagonale sono uguali e quindi le due coppie di marginali sono entrambe perfettamente equilibrate: ogni marginale vale N/2.
Questo è il motivo per cui il numeratore è moltiplicato per 4:
Esempio:
A differenza degli altri tre coefficienti le “sproporzioni” delle celle influenzano solo il numeratore che viene compresso se i moltiplicandi delle diagonali sono molto differenti.
La relazione appare molto debole → i valori dei coefficienti dovrebbero essere vicini a 0
La stima di φ Dsim τc Q non è accettabile: troppo vicini allo 0
Fonte: Marradi A., 1997, Linee guida per l'analisi bivariata dei dati nelle scienze sociali, Franco Angeli, Milano.
Per studiare la relazione tra una variabile categoriale con più di due modalità ed una variabile dicotomica (tabella K*2) è necessario calcolare la probabilità (odds – rapporto di probabilità) che ogni caso della popolazione/campione appartenente ad una delle modalità della variabile categoriale ha di appartenere anche ad una delle due modalità della variabile dicotomica (per approfondimenti cfr lezione 24).
Si ricorre agli odds perché:
Vantaggi
Gli odds consentono di confrontare le categorie di risposta della variabile categoriale in relazione alla variabile dicotomica senza ricorrere alle %.
→ Se si è interessati alla distribuzione della propensione di una delle due modalità della variabile dicotomica (SI) nelle varie categorie della variabile 2*K (PROFESSIONE) si utilizza il “diagramma a bandiera“.
–> Se si è interessati sia alla distribuzione nelle categorie occupazionali sia la propensione ad avere figli nelle stesse categorie si utilizza il diagramma a doppia bandiera.
Tra le variabili dicotomiche ne esistono alcune che derivano da proprietà realmente dicotomiche (genere) e altre che derivano da proprietà che hanno più di due stati o che sono continue.
Quest’ultimo tipo di variabile dicotomica è detta falsa dicotomia.
Dicotomizzando le variabili cardinali si ottiene una perdita di informazioni notevole, ossia si rendono indistinguibili due situazioni reali del tutto diverse come una relazione monotonica ed una curvilinea.
2. Metodo scientifico e ricerca sociale
3. Le fasi della ricerca sociale
4. Tipi di proprietà e tipi di variabili
5. Le variabili
7. Esercitazione: le variabili
8. L'autonomia semantica delle categorie di risposta
9. Introduzione all'analisi delle variabili
10. L'analisi dei dati con variabili categoriali non ordinate
11. Introduzione all'analisi delle distribuzioni di dati con variab...
12. L'analisi dei dati con variabili categoriali ordinate
13. Introduzione all'analisi dei dati con variabili cardinali
14. L'analisi dei dati con variabili cardinali
15. Lo studio della concentrazione di una variabile cardinale trasf...
16. La curva normale
17. Trasformazioni delle variabili: standardizzazione e deflazione
18. La trasformazione delle variabili
19. Rapporti statistici, serie storiche e territoriali
22. La relazione tra due variabili dicotomiche
23. La relazione tra due variabili con categorie non ordinate - pri...
24. La relazione tra due variabili con categorie non ordinate - sec...
25. Relazione tra una variabile categoriale e una cardinale
26. Il diagramma di dispersione
27. Introduzione all'analisi della relazione tra due variabili card...
28. La relazione tra due variabili cardinali
29. Introduzione all'analisi trivariata
30. Esercitazione: tipi di variabili
Corbetta P. G., La ricerca sociale: metodologia e tecniche - L'analisi dei dati, Bologna, Il mulino, 2003.
Marradi A., 1997, Linee guida per l'analisi bivariata dei dati nelle scienze sociali, Franco Angeli, Milano.