Vai alla Home Page About me Courseware Federica Living Library Federica Federica Podstudio Virtual Campus 3D Le Miniguide all'orientamento Gli eBook di Federica La Corte in Rete
 
 
Il Corso Le lezioni del Corso La Cattedra
 
Materiali di approfondimento Risorse Web Il Podcast di questa lezione

Massimo Aria » 8.Relazioni tra variabili: associazione e dipendenza in media


Indipendenza

Lo studio delle relazioni esistenti tra due variabili statistiche parte dalla definizione del concetto di indipendenza.

In particolare, in statistica si considerano tre concetti di indipendenza tra caratteri:

  • indipendenza assoluta
  • indipendenza in media
  • incorrelazione lineare

Si parla di indipendenza assoluta (o indipendenza in distribuzione) tra due caratteri quando le modalità assunte dalla X non modificano la distribuzione di Y.

In altre parole, la distribuzione condizionata della Y dato X=xi non cambia per qualunque i=1,2,…,k.
Similmente, la distribuzione condizionata della X dato Y=yj non cambia per qualunque j=1,2,…,h.

Frequenze teoriche

Quando tra due variabili X e Y vi è indipendenza assoluta, allora i profili (le distribuzioni condizionate espresse in termini di frequenze relative) riga saranno tutti uguali tra loro e pari al profilo medio.

Analogamente ciò sarà vero anche per i profili colonna.

Da questa affermazione è possibile derivare un’ulteriore definizione di indipendenza assoluta:
X e Y si dicono indipendenti quando le frequenze osservate sono uguali alle frequenze teoriche per ogni cella (i,j) della distribuzione doppia”.

Indipendenza in distribuzione

Si ha quando le frequenze osservate in ogni cella (i,j) equivalgono alle frequenze “teoriche”

n^*_{ij}=\frac{n_{i+}n_{+j}}N

Le distribuzioni condizionate relative (profili) si equivalgono

per riga

\frac{n_{ij}}{n_{i+}}=\frac{n_{+j}}N\hspace{1cm}\text{per  }j=1,...,h

per colonna

\frac{n_{ij}}{n_{+j}}=\frac{n_{i+}}N\hspace{1cm}\text{per  }i=1,...,k

Concetto di contingenza

La costruzione di un indice che misuri il grado di connessione tra due caratteri statistici X e Y si basa sul concetto di contingenza.

Si definisce contingenza cij la differenza tra la frequenza osservata e la frequenza teorica di una generica cella ij.

Nel caso di indipendenza le contingenze sono tutte nulle mentre queste cresceranno, in valore assoluto, al crescere del grado di dipendenza tra i caratteri.

Contingenze

c_{ij}=(n_{ij}-n^*_{ij})

dove:

  • nij sono le Freq. osservate
  • n*ij sono le Freq. teoriche

\sum_i\sum_jc_{ij}=\sum_i\sum_j(n_{ij}-n^*_{ij})=0

La somma delle contingenze è sempre nulla!!

Indice di connessione di Pearson

Il grado di connessione tra due caratteri statistici si misura attraverso l’indice di connessione di Pearson (X2).

Esso è ottenuto come somma delle contingenze quadratiche relative.

L’indice assume valore pari a zero in caso di indipendenza in distribuzione e aumenta al crescere del grado di connessione.

Solitamente l’indice X2 è impiegato per la misurare la relazione tra due mutabili.
Infatti per questo tipo di variabili l’unica informazione analizzabile riguarda le frequenze congiunte.

Indice di connessione del Pearson

\chi^2=\sum_i\sum_j\frac{(n_{ij}-n^*_{ij})^2}{n^*_{ij}}

0\leq\chi^2\leq N [\min(k,h)-1 ]

dove

[min(k,h)-1] indica il più piccolo valore tra il numero di righe e il numero di colonne della tabella meno 1.

Ulteriori indici di connessione

Per svincolare l’indice X2 dalla numerosità N della popolazione, sono state proposte numerose varianti tra cui:

  • l’indice di contingenza media quadratica che calcola la media delle contingenze al quadrato relative. Esso è ottenuto rapportando il X2 a N.
  • l’indice V di Cramer, che consiste in una versione normalizzata dell’indice di contingenza media quadratica. Esso sarà pari a 0 nel caso di indipendenza e pari a 1 nel caso di massima connessione.

Ulteriori indici di connessione

Indice di contingenza media quadratica

\phi^2=\frac{\chi^2}N=\frac 1 N\sum_i\sum_j\frac{(n_{ij}-n^*_{ij})^2}{n^*_{ij})}

0\leq \phi^2\leq \min(k,h)-1

indice V di Cramer

V=\sqrt{\frac{\phi^2}{\min(h,k)-1}}

0\leq V\leq 1

Esempio di misurazione della connessione


Indipendenza in media

Sia X una mutabile e Y una variabile quantitativa e sia (X,Y) la variabile doppia generata dall’osservazione congiunta di X e Y.

In questo caso, nello studio della relazione doppia è possibile considerare un diverso concetto di dipendenza che coinvolge anche i valori assunti dalla variabile quantitativa.

Si diche che Y è indipendente in media da X, se al variare delle modalità della X, le medie delle distribuzioni condizionate di Y (medie condizionate) rimangono costanti.

Indipendenza in media → M(Y|x1)=M(Y|x2),…, M(Y|xi),…, M(Y|xk)=M(Y)

L’indipendenza in distribuzione implica quella in media ma non è vero il contrario.

Esempio di distribuzione doppia mista

Nella tabella si riporta la distribuzione dei prezzi di un certo prodotto venduto in tre diverse città italiane.

Le medie condizionate sono diverse tra loro e quindi diverse dalla media generale.

Non vi è indipendenza in media!


Scomposizione della devianza

Partendo da una distribuzione mista, è possibile scomporre la variabilità complessiva della variabile Y (carattere quantitativo) rispetto alle modalità della variabile X (mutabile).

Questo importante risultato prende il nome di scomposizione della devianza.

La devianza totale della Y è scomposta in due quantità:

  • Devianza Interna ai gruppiDevianza Within
  • Devianza Tra i gruppiDevianza Between

Tale che

Dev(Tot)=Dev(W)+Dev(B)

Scomposizione della devianza

Dev(Y)=\sum_i\sum_j(y_i-\mu_Y)^2n__{ij}=

=\sum_i\sum_j(y_i-\mu_{Y|x_i}+\mu_{Y|x_i}-\mu_y)^2n_{ij}=

=\sum_i\sum_j(y_i-\mu_{Y|x_i})^2+\sum_i\sum_j(\mu_{Y|x_i}-\mu_Y)^2 n_{ij}+

+2\sum_i\sum_j(y_i-\mu_{Y|x_i})(y_i-\mu_{Y|x_i})n_{ij}

Sviluppando il quadrato si dimostra che il doppio prodotto è nullo!

Devianza interna ed esterna

In questo modo è possibile spiegare la variabilità complessiva del carattere quantitativo attraverso le due componenti:

  • Devianza Within è pari alla somma delle devianze delle singole distribuzioni condizionate della Y ottenute dalle modalità della X. Essa rappresenta la parte di variabilità di Y che non dipende dagli attributi assunti dalla X
  • Devianza Between è pari alla devianza delle medie condizionate rispetto alla media generale della Y. Essa rappresenta la parte della variabilità di Y che dipende, è generata, dalle modalità assunte dalla variabile X

Componenti della devianza

Dev(Y)=\sum_i\sum_j(y_i-\mu_{Y|x_i})^2n_{ij}+\sum_i(\mu_{Y|x_i}-\mu_y)^2\sum_jn_{ij}=

=\sum_i(Dev(Y|X=x_i))+\sum_i(\mu_{Y|x_i}-\mu_y)^2n_{i+}

Dev(Y)=Dev(W)+Dev(B)

dove

Dev(W) è la devianza interna (Within)

Dev(B) è la devianza esterna (Between)

Interpretazione della scomposizione

La devianza “Between” descrive la variabilità “tra” i gruppi, ossia la variabilità delle medie parziali di Y rispetto alla media generale.
La devianza “Within” descrive la variabilità “interna” ai gruppi, ossia la somma delle variabilità della Y in ciascun gruppo.

Quanto più i gruppi sono ben discriminati tanto maggiore è la componente di variabilità esterna rispetto a quella interna. Ciò implica che la variabile X “spiega” il comportamento della Y.

La variabile X è detta di stratificazione in quanto dalle sue modalità si determinano gli strati o gruppi parziali del collettivo.

Rapporto di correlazione di Pearson

Il rapporto di correlazione η2 di Pearson descrive quanta parte della devianza totale è spiegata dalla variabilità delle medie parziali rispetto alla media generale.

Esso rappresenta una misura normalizzata della devianza between in quanto è ottenuto come rapporto tra questa e la devianza totale (che ne costituisce il massimo).

Il rapporto è pari a 0 quando c’è indipendenza in media ed è pari a 1 in assenza di variabilità interna ai gruppi cioè nel caso di massima dipendenza in media.

Rapporto di Correlazione di Pearson

\eta^2_{Y|X}=\frac{Dev(B)}{Dev(Y)}=1-\frac{Dev(W)}{Dev(Y)}\hspace{1,5cm}0\leq \eta^2_{Y|X}\leq 1

\eta^2_{Y|X}\neq\eta^2_{X|Y}\longrightarrow  Il rapporto di correlazione è un indice NON SIMMETRICO

Esempio di calcolo del Rapporto di Correlazione

… continuando l’esempio visto in precedenza

La Devianza totale è pari a: Dev(Y) = (90-102)2 ·12+(120-102)2 · 8 = 1728 + 2592 = 4320

La Devianza interna per la città di Roma è: Dev(Y|x = RO) = (90-105)2 · 3 + (120-105)2 · 3 =1350

La Devianza interna per la città di Napoli è: Dev(Y|x=NA) = (90-96,67)2 · 7 + (120-96,67)2 · 2 = 1400

La Devianza interna per la città di Firenze è: Dev(Y|x=FI) = (90-108)2 · +(120-108)2 · 3 = 1080

La Devianza interna ai gruppi è pari a: Dev(Within) = Dev(Y|x=RO) + Dev(Y|x=NA) + Dev(Y|x=FI) = 3830

La Devianza tra i gruppi è pari a: Dev(Between) = (105-102)2 · 6 + (96,67-102)2 · 9 + (108-102)2 · 5 = 490

La Devianza Totale è pari alla somma della Devianza Between e della Devianza Within

Dev(T) = Dev(B) + Dev(W) = 490+3830 = 4320

Il rapporto di correlazione è:

\eta^2_{Y|X}=\frac{dev(B)}{dev(T)}=\frac{490}{4320}=0,1134

Esiste una scarsa dipendenza in media!

Nella prossima lezione

Nella prossima lezione si affronteranno i seguenti argomenti:

  • incorrelazione
  • misure di correlazione lineare
  • Contenuti protetti da Creative Commons
  • Feed RSS
  • Condividi su FriendFeed
  • Condividi su Facebook
  • Segnala su Twitter
  • Condividi su LinkedIn
Progetto "Campus Virtuale" dell'Università degli Studi di Napoli Federico II, realizzato con il cofinanziamento dell'Unione europea. Asse V - Società dell'informazione - Obiettivo Operativo 5.1 e-Government ed e-Inclusion