Home

Federica EU

1/22

Amalia Caputo » 22.La relazione tra due variabili dicotomiche

Le tabelle di contingenza 2 x 2

La relazione tra due variabili dicotomiche è descrivibile attraverso la tabulazione incrociata.

Il prodotto della tabulazione incrociata è la tabella di contingenza.

Legenda

Frequenza di cella = a, b, c, d = nij

Marginale riga a + b ; c + d

Marginale colonna a + c ; b + d

Diagonale maggiore a + d = D

Diagonale minore b + c = d

Prodotto incrociato a*d – b*c

Tabella di contingenza tra due variabili dicotomiche.

Calcolo delle percentuali

Come per le tabelle di contingenza con variabili con più di due modalità è consigliabile prendere sempre in visione le percentuali di riga o le percentuali di colonna.

Calcolo delle percentuali: esempio

Calcolo delle %: esempio. Fonte: Marradi A., 1997, Linee guida per l'analisi bivariata dei dati nelle scienze sociali, Franco Angeli, Milano.

Regole per stabilire l’associazione tra variabili basandosi sull’osservazione della tabella di contingenza

Si riporta a lato un esempio.

I condizione necessaria: marginali equilibrati.

II condizione sufficiente: le frequenze si devono concentrare in due celle appartenenti alla stessa diagonale.

Associazione tra proprietà dicotomiche: i coefficienti

I coefficienti utilizzati per sintetizzare l’associazione tra variabili dicotomiche si basano tutti sul prodotto incrociato (cross-product).

Associazione tra proprietà dicotomiche:caratteristiche dei coefficienti

Maggiore è la differenza tra i valori nelle due celle della stessa diagonale e i valori nelle due celle dell’altra diagonale, più alto sarà il prodotto incrociato (indipendentemente dal segno – tabella 1).

Maggiore è il grado di equilibrio tra i valori nelle due celle della stessa diagonale e i valori nelle due celle dell’altra diagonale più alto sarà il prodotto incrociato (tabella 2).

tabella 1

tabella 2

Qualche nota

Quanto più due numeri di un prodotto sono simili, tanto maggiore è il loro prodotto: il valore di un prodotto viene depresso se i moltiplicandi sono sbilanciati tra loro.

Infatti

5*5 = 25
6*4 = 24
7*3 = 21
8*2 = 16
9*1 = 9

L’equilibrio tra le frequenze della stessa diagonale è la proprietà fondamentale in una tabella 2*2: quanto più le frequenze si dividono equamente all’interno della stessa diagonale, tanto maggiori si considerano le prove dell’esistenza della relazione.

I coefficienti bi – direzionali

1. Q di Yule (Undy Yule, 1912)

$Q=\frac{ad-bc}{ad+bc}$

2. φ di Kendall

$\phi=\frac{ad-bc}{\sqrt{(a+b)(c+d)(a+c)(b+d)}}$

3. D Simmetrico (Somers R.H., 1962)
Al denominatore si sommano le due frequenze di cella della stessa diagonale per evitare moltiplicandi troppo piccoli.

$D_{simm}=\frac{ad-bc}{ad+bc+1/2(a+d)(b+c)}$

4. τ_c

$\tau_c=\frac{4(ad-bc)}{N^2}$

Coefficienti bi-direzionali: caratteristiche

Tutti i coefficienti sono costruiti in modo tale che il loro valore raggiunge il massimo quando una delle due diagonali è vuota . Quando ciò si verifica il coefficiente assume valore 1 e si parla di associazione massima.
Se i marginali di entrambe le dicotomie sono bilanciati è possibile utilizzare uno dei quattro coefficienti bi-direzionali;
Se i marginali di entrambe le dicotomie non sono bilanciati la preferibilità dell’uno o dell’altro coefficiente dipende dal modo in cui sono distribuite le frequenze nelle celle e nei marginali.

Di seguito saranno esposte varie situazioni che possono verificarsi in sede di analisi dei dati.
Le variabili dicotomiche considerate sono:

In colonna: ………..aver votato alle ultime elezioni……. si no
In riga: ……………..essere soddisfatti della scelta……… si no

1.Una dicotomia ha frequenze marginali bilanciate e una dicotomia ha frequenze marginali sbilanciate

1 marginale bilanciato e 1 marginale sbilanciato

La relazione appare debole → i valori dei coefficienti dovrebbero essere bassi

Prodotto incrociato = (35*10)-(30*5) = 350-150 = 200

La stima di φ, Dsim τc è accettabile (vicini allo 0)
Q tende a sovrastimare la relazione (vicino ad 1)

Fonte: Marradi A., 1997, Linee guida per l'analisi bivariata dei dati nelle scienze sociali, Franco Angeli, Milano.

2. Una dicotomia ha frequenze marginali sbilanciate e una dicotomia ha frequenze marginali abbastanza bilanciate

1marginale bilanciato e 1marginale abbastanza bilanciato

La relazione appare inesistente → i valori dei coefficienti dovrebbero essere molto vicini a 0

La stima di φ, Dsim, τc, Q è accettabile (vicini allo 0).

3. Entrambe le dicotomie hanno marginali sbilanciati: una cella (semi)vuota o tre celle (semi)vuote

Marginali sbilanciati con 1 o 3 celle semivuote

La relazione appare debole in entrambi i casi _ i valori dei coefficienti dovrebbero essere vicini allo 0.

Corner Correlation: La stima di τc è accettabile (vicino allo 0);
Three-corner Correlation: φ, Dsim e Q sovra stimano molto, ma sono accettabili.

Note su Dsim
Dsim stima bene se ci sono poche celle con frequenze basse;
Dsim non stima bene se ci sono molte celle con frequenze basse.

4. Entrambe le dicotomie hanno marginali sbilanciati: due celle (semi)vuote.

Marginali sbilanciati 2 celle semivuote.

La relazione appare perfetta in entrambi i casi → i valori dei coefficienti dovrebbero essere vicini ad 1

La stima di τ_c non è accettabile (vicino allo 0.)

Limiti di τ_c

Dall’esempio di prima si evince che τ_c raggiunge il massimo non solo quando una delle due diagonali è vuota ma anche quando le frequenze nelle celle dell’altra diagonale sono uguali e quindi le due coppie di marginali sono entrambe perfettamente equilibrate: ogni marginale vale N/2.

Questo è il motivo per cui il numeratore è moltiplicato per 4:

$N^*N=4* \frac N 2 * \frac N 2$

Esempio: $25=4^*\frac 5 2 * \frac 5 2 = 4^*2,5^*2,5=25$

A differenza degli altri tre coefficienti le “sproporzioni” delle celle influenzano solo il numeratore che viene compresso se i moltiplicandi delle diagonali sono molto differenti.

5. Entrambe le dicotomie hanno marginali sbilanciati: nessuna cella (semi)vuote

La relazione appare molto debole → i valori dei coefficienti dovrebbero essere vicini a 0

La stima di φ Dsim τ_c Q non è accettabile: troppo vicini allo 0

Marginali sbilanciati: nessuna cella vuota o semivuota.

I coefficienti uni-direzionali

D asimmetrico, Pierce, 1884.

Tabella sinottica dei coefficienti per tabelle di contingenza 2×2

Fonte: Marradi A., 1997, Linee guida per l'analisi bivariata dei dati nelle scienze sociali, Franco Angeli, Milano.

Relazione tra una dicotomia e una variabile categoriale ordinale con più di due modalità

Per studiare la relazione tra una variabile categoriale con più di due modalità ed una variabile dicotomica (tabella K*2) è necessario calcolare la probabilità (odds – rapporto di probabilità) che ogni caso della popolazione/campione appartenente ad una delle modalità della variabile categoriale ha di appartenere anche ad una delle due modalità della variabile dicotomica (per approfondimenti cfr lezione 24).

Si ricorre agli odds perché:

non può essere attribuito segno alla relazione;
non si può ricorrere a nessuno dei coefficienti delle dicotomie.

Vantaggi
Gli odds consentono di confrontare le categorie di risposta della variabile categoriale in relazione alla variabile dicotomica senza ricorrere alle %.

Come si calcolano gli odds

Relazione tra una dicotomia e una variabile categoriale ordinale con più di due modalità (segue)

→ Se si è interessati alla distribuzione della propensione di una delle due modalità della variabile dicotomica (SI) nelle varie categorie della variabile 2*K (PROFESSIONE) si utilizza il “diagramma a bandiera“.

Relazione tra una dicotomia e una variabile categoriale ordinale con più di due modalità (segue)

–> Se si è interessati sia alla distribuzione nelle categorie occupazionali sia la propensione ad avere figli nelle stesse categorie si utilizza il diagramma a doppia bandiera.

False dicotomie

Tra le variabili dicotomiche ne esistono alcune che derivano da proprietà realmente dicotomiche (genere) e altre che derivano da proprietà che hanno più di due stati o che sono continue.

Quest’ultimo tipo di variabile dicotomica è detta falsa dicotomia.

Dicotomizzando le variabili cardinali si ottiene una perdita di informazioni notevole, ossia si rendono indistinguibili due situazioni reali del tutto diverse come una relazione monotonica ed una curvilinea.