Vai alla Home Page About me Courseware Federica Living Library Federica Federica Podstudio Virtual Campus 3D Le Miniguide all'orientamento Gli eBook di Federica La Corte in Rete
 
I corsi di Sociologia
 
Il Corso Le lezioni del Corso La Cattedra
 
Materiali di approfondimento Risorse Web Il Podcast di questa lezione

Giancarlo Ragozini » 13.L'associazione fra due variabili qualitative


L’associazione fra due variabili qualitative

Premessa:

Finalità frequente di studi statistici è la ricerca di relazioni di causa-effetto e/o associazione allo scopo di:

  • interpretare;
  • prevedere;
  • simulare e controllare i fenomeni reali.

Per conseguire tale obiettivo è necessario enfatizzare il concetto di contemporaneo verificarsi di insiemi di modalità su una data unità statistica.

Distribuzioni multiple

  • Si ottiene una distribuzione multipla, quando su ogni unità statistica vengono rilevati, congiuntamente, due o più caratteri statistici (qualitativi e/o quantitativi).
  • Si parla di variabile doppia, tripla, n -pla, a seconda che le variabili rilevate siano, 2, 3 oppure n.

Tabella di contingenza

  • Una tabella di contingenza è una tabella costituita da righe che rappresentano i possibili valori (o categorie) di una variabile e da colonne che rappresentano i possibili valori (o categorie) di una seconda variabile. I dati nel corpo della tabella sono il numero di volte in cui compare ogni coppia di valori/categorie.
  • A due vie e a più vie
Tabella di contingenza a due vie: Struttura

Tabella di contingenza a due vie: Struttura


Tabella di contingenza

(X,Y)

(x1,y1) , (x2,y2) , (xN,yN) Rilevazione statistica doppia

  • Le variabili univariate X e Y vengono dette componenti.
  • La conoscenza della distribuzione doppia permette la conoscenza delle componenti ma non è vero il contrario.

Tabelle di contingenza


Frequenze marginali e frequenze totali


Frequenze relative


Distribuzioni condizionate

  • Data una distribuzione doppia (X, Y), la distribuzione condizionata Y |xi, è la distribuzione semplice che si ottiene se si fissa X=xi e si limita l’analisi della variabile Y ai soli soggetti per cui risulta X = xi.
  • Analogamente, si può fissare Y=yj e studiare la distribuzione, semplice, di X.

Condizionate su Y


Condizionate su X


Indipendenza

Le due componenti X ed Y della distribuzione doppia (X, Y) si dicono indipendenti se non esiste alcun tipo di legame tra X ed Y (e per simmetria tra Y ed X).

Condizione di indipendenza

  • Qualunque valore di X non deve modificare la distribuzione di Y (e viceversa).
  • In altri termini, le distribuzioni condizionate Y|X=xi non variano per ogni i, e quindi le frequenze relative condizionate nij/ni. non variano.
  • Analogamente, le distribuzioni condizionate X|Y=yj non variano per ogni j, e quindi le frequenze relative condizionate nij/nj non variano.
Frequenza teoriche sotto l’ipotesi di indipendenza

Frequenza teoriche sotto l'ipotesi di indipendenza


Connessione tra mutabili doppie

  • Un indice per lo studio della relazione tra due mutabili è il chi quadro (Χ2), in grado di mettere in evidenza il livello di connessione tra due variabili qualitative.
  • Esso confronta le frequenze osservate con quelle teoriche sotto l’ipotesi di indipendenza.
  • Il quadrato serve ad evitare che scarti positivi e negativi si compensino.
  • La frazione serve per eliminare l’effetto del quadrato e per relativizzare lo scarto rispetto alla grandezza della frequenza.
Formula del chi-quadro

Formula del chi-quadro


Connessione tra mutabili doppie

  • L’indice chi quadro (Χ2) dipende dalla numerosità del collettivo, cosicché, a parità di associazione, il suo valore aumenta all’aumentare di N.
  • Generalmente, nello studio dell’indipendenza tra due mutabili, si preferisce utilizzare degli indici “normalizzati” che diano misure non dipendenti dalla numerosità.

Indici di strettezza della connessione

  • L’indice di contingenza quadratica media (Χ2) di Pearson Φ2 = Χ2/N
  • In caso di indipendenza assume il suo valore minimo che è zero. Il valore massimo è pari a 1 solo quando il numero di righe o il numero di colonne è uguale a 2, altrimenti risulta maggiore di 1.

Indici di strettezza della connessione

Cramér ha proposto di normalizzare l’indice Χ2 rapportandolo al suo valore massimo.

Proprietà dell’indice V di Cramér:

  • 0≤V ≤1
  • V=0 se i caratteri sono indipendenti
  • V=1 se vi è dipendenza o interdipendenza perfetta
Indice V di Cramér

Indice V di Cramér


Prossima lezione

L’associazione tra due variabili

  • L’associazione fra una variabile quantitativa ed una qualitativa
  • L’associazione fra due variabili quantitative
  • La covarianza e la correlazione
  • Contenuti protetti da Creative Commons
  • Feed RSS
  • Condividi su FriendFeed
  • Condividi su Facebook
  • Segnala su Twitter
  • Condividi su LinkedIn
Progetto "Campus Virtuale" dell'Università degli Studi di Napoli Federico II, realizzato con il cofinanziamento dell'Unione europea. Asse V - Società dell'informazione - Obiettivo Operativo 5.1 e-Government ed e-Inclusion