Home

Federica EU

1/15

Massimo Aria » 8.Relazioni tra variabili: associazione e dipendenza in media

Indipendenza

Lo studio delle relazioni esistenti tra due variabili statistiche parte dalla definizione del concetto di indipendenza.

In particolare, in statistica si considerano tre concetti di indipendenza tra caratteri:

indipendenza assoluta
indipendenza in media
incorrelazione lineare

Si parla di indipendenza assoluta (o indipendenza in distribuzione) tra due caratteri quando le modalità assunte dalla X non modificano la distribuzione di Y.

In altre parole, la distribuzione condizionata della Y dato X=x_i non cambia per qualunque i=1,2,…,k.
Similmente, la distribuzione condizionata della X dato Y=y_j non cambia per qualunque j=1,2,…,h.

Frequenze teoriche

Quando tra due variabili X e Y vi è indipendenza assoluta, allora i profili (le distribuzioni condizionate espresse in termini di frequenze relative) riga saranno tutti uguali tra loro e pari al profilo medio.

Analogamente ciò sarà vero anche per i profili colonna.

Da questa affermazione è possibile derivare un’ulteriore definizione di indipendenza assoluta:
“X e Y si dicono indipendenti quando le frequenze osservate sono uguali alle frequenze teoriche per ogni cella (i,j) della distribuzione doppia”.

Indipendenza in distribuzione

Si ha quando le frequenze osservate in ogni cella (i,j) equivalgono alle frequenze “teoriche”

$n^*_{ij}=\frac{n_{i+}n_{+j}}N$

Le distribuzioni condizionate relative (profili) si equivalgono

per riga

$\frac{n_{ij}}{n_{i+}}=\frac{n_{+j}}N\hspace{1cm}\text{per }j=1,...,h$

per colonna

$\frac{n_{ij}}{n_{+j}}=\frac{n_{i+}}N\hspace{1cm}\text{per }i=1,...,k$

Concetto di contingenza

La costruzione di un indice che misuri il grado di connessione tra due caratteri statistici X e Y si basa sul concetto di contingenza.

Si definisce contingenza c_ij la differenza tra la frequenza osservata e la frequenza teorica di una generica cella ij.

Nel caso di indipendenza le contingenze sono tutte nulle mentre queste cresceranno, in valore assoluto, al crescere del grado di dipendenza tra i caratteri.

Contingenze

$c_{ij}=(n_{ij}-n^*_{ij})$

dove:

n_ij sono le Freq. osservate
n^*_ij sono le Freq. teoriche

$\sum_i\sum_jc_{ij}=\sum_i\sum_j(n_{ij}-n^*_{ij})=0$

La somma delle contingenze è sempre nulla!!

Indice di connessione di Pearson

Il grado di connessione tra due caratteri statistici si misura attraverso l’indice di connessione di Pearson (X²).

Esso è ottenuto come somma delle contingenze quadratiche relative.

L’indice assume valore pari a zero in caso di indipendenza in distribuzione e aumenta al crescere del grado di connessione.

Solitamente l’indice X² è impiegato per la misurare la relazione tra due mutabili.
Infatti per questo tipo di variabili l’unica informazione analizzabile riguarda le frequenze congiunte.

Indice di connessione del Pearson

$\chi^2=\sum_i\sum_j\frac{(n_{ij}-n^*_{ij})^2}{n^*_{ij}}$

$0\leq\chi^2\leq N [\min(k,h)-1 ]$

dove

[min(k,h)-1] indica il più piccolo valore tra il numero di righe e il numero di colonne della tabella meno 1.

Ulteriori indici di connessione

Per svincolare l’indice X² dalla numerosità N della popolazione, sono state proposte numerose varianti tra cui:

l’indice di contingenza media quadratica che calcola la media delle contingenze al quadrato relative. Esso è ottenuto rapportando il X² a N.
l’indice V di Cramer, che consiste in una versione normalizzata dell’indice di contingenza media quadratica. Esso sarà pari a 0 nel caso di indipendenza e pari a 1 nel caso di massima connessione.

Ulteriori indici di connessione

Indice di contingenza media quadratica

$\phi^2=\frac{\chi^2}N=\frac 1 N\sum_i\sum_j\frac{(n_{ij}-n^*_{ij})^2}{n^*_{ij})}$

$0\leq \phi^2\leq \min(k,h)-1$

indice V di Cramer

$V=\sqrt{\frac{\phi^2}{\min(h,k)-1}}$

$0\leq V\leq 1$

Esempio di misurazione della connessione

Indipendenza in media

Sia X una mutabile e Y una variabile quantitativa e sia (X,Y) la variabile doppia generata dall’osservazione congiunta di X e Y.

In questo caso, nello studio della relazione doppia è possibile considerare un diverso concetto di dipendenza che coinvolge anche i valori assunti dalla variabile quantitativa.

Si diche che Y è indipendente in media da X, se al variare delle modalità della X, le medie delle distribuzioni condizionate di Y (medie condizionate) rimangono costanti.

Indipendenza in media → M(Y|x₁)=M(Y|x₂),…, M(Y|x_i),…, M(Y|x_k)=M(Y)

L’indipendenza in distribuzione implica quella in media ma non è vero il contrario.

Esempio di distribuzione doppia mista

Nella tabella si riporta la distribuzione dei prezzi di un certo prodotto venduto in tre diverse città italiane.

Le medie condizionate sono diverse tra loro e quindi diverse dalla media generale.

Non vi è indipendenza in media!

Scomposizione della devianza

Partendo da una distribuzione mista, è possibile scomporre la variabilità complessiva della variabile Y (carattere quantitativo) rispetto alle modalità della variabile X (mutabile).

Questo importante risultato prende il nome di scomposizione della devianza.

La devianza totale della Y è scomposta in due quantità:

Devianza Interna ai gruppi – Devianza Within
Devianza Tra i gruppi – Devianza Between

Tale che

Dev(Tot)=Dev(W)+Dev(B)

Scomposizione della devianza

$Dev(Y)=\sum_i\sum_j(y_i-\mu_Y)^2n__{ij}=$

$=\sum_i\sum_j(y_i-\mu_{Y|x_i}+\mu_{Y|x_i}-\mu_y)^2n_{ij}=$

$=\sum_i\sum_j(y_i-\mu_{Y|x_i})^2+\sum_i\sum_j(\mu_{Y|x_i}-\mu_Y)^2 n_{ij}+$

$+2\sum_i\sum_j(y_i-\mu_{Y|x_i})(y_i-\mu_{Y|x_i})n_{ij}$

Sviluppando il quadrato si dimostra che il doppio prodotto è nullo!

Devianza interna ed esterna

In questo modo è possibile spiegare la variabilità complessiva del carattere quantitativo attraverso le due componenti:

Devianza Within è pari alla somma delle devianze delle singole distribuzioni condizionate della Y ottenute dalle modalità della X. Essa rappresenta la parte di variabilità di Y che non dipende dagli attributi assunti dalla X
Devianza Between è pari alla devianza delle medie condizionate rispetto alla media generale della Y. Essa rappresenta la parte della variabilità di Y che dipende, è generata, dalle modalità assunte dalla variabile X

Componenti della devianza

$Dev(Y)=\sum_i\sum_j(y_i-\mu_{Y|x_i})^2n_{ij}+\sum_i(\mu_{Y|x_i}-\mu_y)^2\sum_jn_{ij}=$

$=\sum_i(Dev(Y|X=x_i))+\sum_i(\mu_{Y|x_i}-\mu_y)^2n_{i+}$

$Dev(Y)=Dev(W)+Dev(B)$

dove

Dev(W) è la devianza interna (Within)

Dev(B) è la devianza esterna (Between)

Interpretazione della scomposizione

La devianza “Between” descrive la variabilità “tra” i gruppi, ossia la variabilità delle medie parziali di Y rispetto alla media generale.
La devianza “Within” descrive la variabilità “interna” ai gruppi, ossia la somma delle variabilità della Y in ciascun gruppo.

Quanto più i gruppi sono ben discriminati tanto maggiore è la componente di variabilità esterna rispetto a quella interna. Ciò implica che la variabile X “spiega” il comportamento della Y.

La variabile X è detta di stratificazione in quanto dalle sue modalità si determinano gli strati o gruppi parziali del collettivo.

Rapporto di correlazione di Pearson

Il rapporto di correlazione η² di Pearson descrive quanta parte della devianza totale è spiegata dalla variabilità delle medie parziali rispetto alla media generale.

Esso rappresenta una misura normalizzata della devianza between in quanto è ottenuto come rapporto tra questa e la devianza totale (che ne costituisce il massimo).

Il rapporto è pari a 0 quando c’è indipendenza in media ed è pari a 1 in assenza di variabilità interna ai gruppi cioè nel caso di massima dipendenza in media.

Rapporto di Correlazione di Pearson

$\eta^2_{Y|X}=\frac{Dev(B)}{Dev(Y)}=1-\frac{Dev(W)}{Dev(Y)}\hspace{1,5cm}0\leq \eta^2_{Y|X}\leq 1$

$\eta^2_{Y|X}\neq\eta^2_{X|Y}\longrightarrow$ Il rapporto di correlazione è un indice NON SIMMETRICO

Esempio di calcolo del Rapporto di Correlazione

… continuando l’esempio visto in precedenza

La Devianza totale è pari a: Dev(Y) = (90-102)² ·12+(120-102)² · 8 = 1728 + 2592 = 4320

La Devianza interna per la città di Roma è: Dev(Y|x = RO) = (90-105)² · 3 + (120-105)² · 3 =1350

La Devianza interna per la città di Napoli è: Dev(Y|x=NA) = (90-96,67)² · 7 + (120-96,67)² · 2 = 1400

La Devianza interna per la città di Firenze è: Dev(Y|x=FI) = (90-108)² · +(120-108)² · 3 = 1080

La Devianza interna ai gruppi è pari a: Dev(Within) = Dev(Y|x=RO) + Dev(Y|x=NA) + Dev(Y|x=FI) = 3830

La Devianza tra i gruppi è pari a: Dev(Between) = (105-102)² · 6 + (96,67-102)² · 9 + (108-102)² · 5 = 490

La Devianza Totale è pari alla somma della Devianza Between e della Devianza Within

Dev(T) = Dev(B) + Dev(W) = 490+3830 = 4320

Il rapporto di correlazione è:

$\eta^2_{Y|X}=\frac{dev(B)}{dev(T)}=\frac{490}{4320}=0,1134$

Esiste una scarsa dipendenza in media!

Nella prossima lezione

Nella prossima lezione si affronteranno i seguenti argomenti:

incorrelazione
misure di correlazione lineare

Le lezioni del Corso

1. L’indagine statistica

2. Caratteri statistici e scale di misura

3. Sintesi tabellare e grafica di una distribuzione statistica

4. Misure di posizione

5. Misure di variabilità

6. Forma di una distribuzione statistica

7. Distribuzioni doppie di frequenza

8. Relazioni tra variabili: associazione e dipendenza in media

9. Relazioni tra variabili: Correlazione lineare

10. Interpolazione statistica e Retta di regressione

11. Elementi di calcolo delle probabilità

12. Introduzione alle variabili casuali

13. Modelli per variabili casuali discrete di uso comune

14. Modelli per variabili casuali continue di uso comune

15. Introduzione alle serie storiche

16. Approccio classico: Modello di decomposizione di una serie storica