Vai alla Home Page About me Courseware Federica Living Library Federica Federica Podstudio Virtual Campus 3D Le Miniguide all'orientamento Gli eBook di Federica La Corte in Rete
 
 
Il Corso Le lezioni del Corso La Cattedra
 
Materiali di approfondimento Risorse Web Il Podcast di questa lezione

Amalia Caputo » 23.La relazione tra due variabili con categorie non ordinate - prima parte


Relazione tra due variabili categoriali

Quando si intende descrivere la relazione tra:

  • due variabili categoriali non ordinate;
  • una variabile categoriale non ordinata e una variabile categoriale ordinata.

si ricorre, come nel caso delle relazioni tra dicotomie, alle tabelle di contingenza.

In questi casi

  • non acquista importanza la diagonale;
  • acquistano importanza: l’equilibrio tra le frequenze delle categorie e  il numero di categorie per ciascuna variabile.

Ovvero

  1. le frequenze tra le categorie devono essere ben equilibrate;
  2. le categorie per ciascuna variabile non devono essere troppo numerose per evitare un numero troppo elevato di celle. Un numero troppo elevato di celle comporta, infatti, una possibilità elevata di celle vuote (per poter dimostrare questa proprietà è necessario introdurre il concetto di frequenze attese).

Le frequenze attese

Come si è detto in precedenza, ogni cella contiene quattro tipi di informazioni:

  1. Frequenza osservata (fo);
  2. Frequenza minima possibile;
  3. Frequenza massima possibile;
  4. Frequenza attesa (fe).

Si definisce frequenza attesa la frequenza che si otterrebbe in caso di indipendenza tra le variabili.

Essa è data dal prodotto dei marginali (di riga e di colonna) corrispondenti, diviso il numero totale dei casi: (vedi figura).

Dove:

  • ci = marginale di colonna della cella i
  • ri = marginale di riga della colonna i
  • N = numero dei casi

Calcolo delle frequenze attese: esempio


Le frequenze attese: caratteristiche

Gli scarti tra le frequenze attese e le frequenze osservate si bilanciano.

Uno scarto di + n tra fe e fo in una cella comporta:

  • uno scarto uguale e contrario (-n) nelle celle adiacenti;
  • uno scarto uguale (+n) nella cella della stessa diagonale.

1. Confronto tra frequenze attese e frequenze osservate

Per stabilire se tra due variabili categoriali c’è associazione è possibile procedere confrontando le frequenze empiriche (cioè le frequenze osservate o fo) con le frequenze attese (fe).

Se fo = fe .

X e Y sono indipendenti

se fo ≠ fe .

X e Y sono associati

fo < fe associazione negativa

fo > fe associazione positiva

In generale: più gli scarti (la differenza tra Fo ed Fe) sono alti più c’è associazione tra le due variabili.

Affidabilità dei dati di una tabella di contingenza


Importanza del numero ridotto di categorie: esempio


Per analizzare le tabelle di contingenza fra variabili categoriali…

… è possibile:

1. Confrontare le frequenze attese e le frequenze osservate.

2. Confrontare le percentuali di riga di ciascuna cella con i marginali di colonna relativi alla cella considerata (e viceversa) con il metodo dello scarto dall’indipendenza.

Chi-quadrato

È su quanto detto sinora che si basa il test di associazione, ossia il test del χ2 che è il test di significatività che si utilizza per sapere se c’è relazione tra due variabili categoriali.

È uno dei test di verifica delle ipotesi utilizzati in statistica per verificare se l’ipotesi nulla è probabilisticamente compatibile. Lo scopo del test del χ2 è quello di conoscere se le frequenze osservate differiscono significativamente dalle frequenze teoriche.


Caratteristiche del χ2

  1. Il valore ottenuto è direttamente proporzionale al numero dei casi N
  2. χ2 rileva la significatività statistica di una tabella di contingenza ossia rileva la probabilità che l’associazione non sia un mero effetto del caso;
  3. Non rileva la forza dell’associazione tra le due variabili (concordanza).
  4. Non ha un range di variazione, il valore minimo che può assumere è 0 (assenza di relazione)

Come si interpreta χ2

Per rilevare la significatività statistica …

H0 \longrightarrow Ipotesi di indipendenza tra X e Y

H1\longrightarrow Ipotesi di dipendenza tra X e Y

0ssia

Per poter accettare χ2 è necessario calcolare la probabilità (p)che il valore assunto da esso non sia dovuto al caso (errore). χ2 è significativo (c’è relazione, ossia si accetta l’ipotesi H1) se p < 0,05 (5%)

calcolo di p
gl = (n righe -1) (n colonne – 1).
si consulta la tavola del χ2 per controllare la probabilità p
se p < 0,05 …….. H0 si rifiuta ………..dipendenza tra X e Y

se p > 0,05 …….. H0 si accetta…….. indipendenza tra X e Y

Tavola del Chi-quadro


Chi-quadrato: esempio


La forza della relazione: i coefficienti

Per misurare la forza della relazione esistente tra due variabili categoriali si ricorre ad una serie di coefficienti basati sul X2
Tali coefficienti informano sulla forza dell’associazione ma non dicono nulla sui legami fra le specifiche categorie dai quali tale associazione dipende.

Sono Quattro:

  1. Phi-quadro
  2. Phi
  3. V di Cramer
  4. C Coefficiente di contingenza.

Caratteristiche

Come Chi-quadro, non hanno un range di variazione, il valore minimo è 0 (assenza di relazione).

La forza della relazione: i coefficienti (segue)


La forza della relazione: i coefficienti a confronto


Misure basate sulla riduzione proporzionale dell’errore

Riduzione proporzionale dell’errore (PRE) nel predire Y conoscendo X rispetto all’errore che si farebbe se non si conoscesse il valore di X.

Ossia:

  • Queste misure consentono, a partire da X, di prevedere il valore assunto da Y con una % di errore inferiore a quella che si otterrebbe non conoscendo X.
  • Sono misure di associazione asimmetriche perché assumono valore differente a seconda di quale delle due variabili viene considerata indipendente: proprio per questo motivo vengono chiamate misure di associazione asimmetriche.

Le misure sono due:

  1. λ (Goodman e Kruskal)
  2. τ

PRE: Esempio

Le formule delle due misure di associazione sono abbastanza complesse. Dal momento che solitamente il calcolo viene effettuato dai software di analisi dei dati, qui verrà esposto solo il criterio di interpretazione del valore, tramite un esempio.

Le rappresentazioni grafiche

Non esistono delle rappresentazioni grafiche adeguate per la relazione di due variabili che non siano ordinate.
La rappresentazione più adatta non è realizzabile con i software attualmente diffusi, in quanto consiste nella trasposizione della tavola di contingenza in uno spazio tridimensionale.

Se invece almeno una delle due variabili è ordinale si può ricorrere a:

  1. istogramma di composizione: gli istogrammi saranno tanti quante sono le categorie dell’altra variabile (anch’essa categoriale o dicotomica).
  2. Spezzata a gradini: rappresenterà in primo piano la spezzata che riproduce le frequenze cumulate della variabile ordinale entro una delle modalità della categoriale e in secondo piano quelle dell’ordinale entro una modalità della categoriale. Non è consigliato utilizzare questo tipo di grafico se le modalità della categoriale sono più di tre.
Istogramma di composizione.

Istogramma di composizione.

Spezzata a gradini.

Spezzata a gradini.


I materiali di supporto della lezione

Corbetta P. G., La ricerca sociale: metodologia e tecniche- L'analisi dei dati, Bologna, Il mulino, 2003.

Marradi A., 1997, Linee guida per l'analisi bivariata dei dati nelle scienze sociali, Franco Angeli, Milano.

  • Contenuti protetti da Creative Commons
  • Feed RSS
  • Condividi su FriendFeed
  • Condividi su Facebook
  • Segnala su Twitter
  • Condividi su LinkedIn
Progetto "Campus Virtuale" dell'Università degli Studi di Napoli Federico II, realizzato con il cofinanziamento dell'Unione europea. Asse V - Società dell'informazione - Obiettivo Operativo 5.1 e-Government ed e-Inclusion