Vai alla Home Page About me Courseware Federica Living Library Federica Federica Podstudio Virtual Campus 3D Le Miniguide all'orientamento Gli eBook di Federica La Corte in Rete
 
 
Il Corso Le lezioni del Corso La Cattedra
 
Materiali di approfondimento Risorse Web Il Podcast di questa lezione

Giancarlo Ragozini » 13.L'associazione fra due variabili qualitative


L’associazione fra due variabili qualitative

Premessa:

Finalità frequente di studi statistici è la ricerca di relazioni di causa-effetto e/o associazione allo scopo di:

  • interpretare;
  • prevedere;
  • simulare e controllare i fenomeni reali.

Per conseguire tale obiettivo è necessario enfatizzare il concetto di contemporaneo verificarsi di insiemi di modalità su una data unità statistica.

Distribuzioni multiple

  • Si ottiene una distribuzione multipla, quando su ogni unità statistica vengono rilevati, congiuntamente, due o più caratteri statistici (qualitativi e/o quantitativi).
  • Si parla di variabile doppia, tripla, n -pla, a seconda che le variabili rilevate siano, 2, 3 oppure n.

Tabella di contingenza

  • Una tabella di contingenza è una tabella costituita da righe che rappresentano i possibili valori (o categorie) di una variabile e da colonne che rappresentano i possibili valori (o categorie) di una seconda variabile. I dati nel corpo della tabella sono il numero di volte in cui compare ogni coppia di valori/categorie.
  • A due vie e a più vie
Tabella di contingenza a due vie: Struttura

Tabella di contingenza a due vie: Struttura


Tabella di contingenza

(X,Y)

(x1,y1) , (x2,y2) , (xN,yN) Rilevazione statistica doppia

  • Le variabili univariate X e Y vengono dette componenti.
  • La conoscenza della distribuzione doppia permette la conoscenza delle componenti ma non è vero il contrario.

Tabelle di contingenza


Frequenze marginali e frequenze totali


Frequenze relative


Distribuzioni condizionate

  • Data una distribuzione doppia (X, Y), la distribuzione condizionata Y |xi, è la distribuzione semplice che si ottiene se si fissa X=xi e si limita l’analisi della variabile Y ai soli soggetti per cui risulta X = xi.
  • Analogamente, si può fissare Y=yj e studiare la distribuzione, semplice, di X.

Condizionate su Y


Condizionate su X


Indipendenza

Le due componenti X ed Y della distribuzione doppia (X, Y) si dicono indipendenti se non esiste alcun tipo di legame tra X ed Y (e per simmetria tra Y ed X).

Condizione di indipendenza

  • Qualunque valore di X non deve modificare la distribuzione di Y (e viceversa).
  • In altri termini, le distribuzioni condizionate Y|X=xi non variano per ogni i, e quindi le frequenze relative condizionate nij/ni. non variano.
  • Analogamente, le distribuzioni condizionate X|Y=yj non variano per ogni j, e quindi le frequenze relative condizionate nij/nj non variano.
Frequenza teoriche sotto l’ipotesi di indipendenza

Frequenza teoriche sotto l'ipotesi di indipendenza


Connessione tra mutabili doppie

  • Un indice per lo studio della relazione tra due mutabili è il chi quadro (Χ2), in grado di mettere in evidenza il livello di connessione tra due variabili qualitative.
  • Esso confronta le frequenze osservate con quelle teoriche sotto l’ipotesi di indipendenza.
  • Il quadrato serve ad evitare che scarti positivi e negativi si compensino.
  • La frazione serve per eliminare l’effetto del quadrato e per relativizzare lo scarto rispetto alla grandezza della frequenza.
Formula del chi-quadro

Formula del chi-quadro


Connessione tra mutabili doppie

  • L’indice chi quadro (Χ2) dipende dalla numerosità del collettivo, cosicché, a parità di associazione, il suo valore aumenta all’aumentare di N.
  • Generalmente, nello studio dell’indipendenza tra due mutabili, si preferisce utilizzare degli indici “normalizzati” che diano misure non dipendenti dalla numerosità.

Indici di strettezza della connessione

  • L’indice di contingenza quadratica media (Χ2) di Pearson Φ2 = Χ2/N
  • In caso di indipendenza assume il suo valore minimo che è zero. Il valore massimo è pari a 1 solo quando il numero di righe o il numero di colonne è uguale a 2, altrimenti risulta maggiore di 1.

Indici di strettezza della connessione

Cramér ha proposto di normalizzare l’indice Χ2 rapportandolo al suo valore massimo.

Proprietà dell’indice V di Cramér:

  • 0≤V ≤1
  • V=0 se i caratteri sono indipendenti
  • V=1 se vi è dipendenza o interdipendenza perfetta
Indice V di Cramér

Indice V di Cramér


Prossima lezione

L’associazione tra due variabili

  • L’associazione fra una variabile quantitativa ed una qualitativa
  • L’associazione fra due variabili quantitative
  • La covarianza e la correlazione
  • Contenuti protetti da Creative Commons
  • Feed RSS
  • Condividi su FriendFeed
  • Condividi su Facebook
  • Segnala su Twitter
  • Condividi su LinkedIn
Progetto "Campus Virtuale" dell'Università degli Studi di Napoli Federico II, realizzato con il cofinanziamento dell'Unione europea. Asse V - Società dell'informazione - Obiettivo Operativo 5.1 e-Government ed e-Inclusion