Vai alla Home Page About me Courseware Federica Living Library Federica Federica Podstudio Virtual Campus 3D Le Miniguide all'orientamento Gli eBook di Federica La Corte in Rete
 
I corsi di Economia
 
Il Corso Le lezioni del Corso La Cattedra
 
Materiali di approfondimento Risorse Web Il Podcast di questa lezione

Massimo Aria » 8.Relazioni tra variabili: Associazione e dipendenza in media


Indipendenza

Lo studio delle relazioni esistenti tra due variabili statistiche parte dalla definizione del concetto di indipendenza.

In particolare, in statistica si considerano tre concetti di indipendenza tra caratteri:

  • indipendenza assoluta
  • indipendenza in media
  • incorrelazione lineare

Si parla di indipendenza assoluta (o indipendenza in distribuzione) tra due caratteri quando le modalità assunte dalla X non modificano la distribuzione di Y.

In altre parole, la distribuzione condizionata della Y dato X=xi non cambia per qualunque i=1,2,…,k.
Similmente, la distribuzione condizionata della X dato Y=yj non cambia per qualunque j=1,2,…,h.

Frequenze teoriche

Quando tra due variabili X e Y vi è indipendenza assoluta, allora i profili (le distribuzioni condizionate espresse in termini di frequenze relative) riga saranno tutti uguali tra loro e pari al profilo medio.

Analogamente ciò sarà vero anche per i profili colonna.

Da questa affermazione è possibile derivare un’ulteriore definizione di indipendenza assoluta:
“X e Y si dicono indipendenti quando le frequenze osservate sono uguali alle frequenze teoriche per ogni cella (i,j) della distribuzione doppia”.

Indipendenza in distribuzione

Indipendenza in distribuzione


Concetto di contingenza

La costruzione di un indice che misuri il grado di connessione tra due caratteri statistici X e Y si basa sul concetto di contingenza.

Si definisce contingenza cij la differenza tra la frequenza osservata e la frequenza teorica di una generica cella ij.

Nel caso di indipendenza le contingenze sono tutte nulle mentre queste cresceranno, in valore assoluto, al crescere del grado di dipendenza tra i caratteri.

Contingenze

Contingenze


Indice di connessione di Pearson

Il grado di connessione tra due caratteri statistici si misura attraverso l’indice di connessione di Pearson (X2).

Esso è ottenuto come somma delle contingenze quadratiche relative.

L’indice assume valore pari a zero in caso di indipendenza in distribuzione e aumenta al crescere del grado di connessione.

Solitamente l’indice X2 è impiegato per la misurare la relazione tra due mutabili.
Infatti per questo tipo di variabili l’unica informazione analizzabile riguarda le frequenze congiunte.

Indice di connessione di Pearson

Indice di connessione di Pearson


Ulteriori indici di connessione

Per svincolare l’indice X2 dalla numerosità N della popolazione, sono state proposte numerose varianti tra cui:

  • l’indice di contingenza media quadratica che calcola la media delle contingenze al quadrato relative.
    Esso è ottenuto rapportano il X2 a N.
  • l’indice V di Cramer, che consiste in una versione normalizzata dell’indice di contingenza media quadratica.
    Esso sarà pari a 0 nel caso di indipendenza e pari a 1 nel caso di massima connessione.
Ulteriori indici di connessione

Ulteriori indici di connessione


Esempio di misurazione della connessione


Indipendenza in media

Sia X una mutabile e Y una variabile quantitativa e sia (X,Y) la variabile doppia generata dall’osservazione congiunta di X e Y.

In questo caso, nello studio della relazione doppia è possibile considerare un diverso concetto di dipendenza che coinvolge anche i valori assunti dalla variabile quantitativa.

Si diche che Y è indipendente in media da X, se al variare delle modalità della X, le medie delle distribuzioni condizionate di Y (medie condizionate) rimangono costanti.

Indipendenza in media → M(Y|x1)=M(Y|x2),…, M(Y|xi),…, M(Y|xk)=M(Y)

L’indipendenza in distribuzione implica quella in media ma non è vero il contrario.

Esempio di distribuzione doppia mista


Scomposizione della devianza

Partendo da una distribuzione mista, è possibile scomporre la variabilità complessiva della variabile Y (carattere quantitativo) rispetto alle modalità della variabile X (mutabile).

Questo importante risultato prende il nome di scomposizione della devianza.

La devianza totale della Y è scomposta in due quantità:

  • Devianza Interna ai gruppi – Devianza Within
  • Devianza Tra i gruppi – Devianza Between

Tale che:

  • Dev(Tot)=Dev(W)+Dev(B)
Scomposizione della devianza

Scomposizione della devianza


Devianza interna ed esterna

In questo modo è possibile spiegare la variabilità complessiva del carattere quantitativo attraverso le due componenti:

  • Devianza Within è pari alla somma delle devianze delle singole distribuzioni condizionate della Y ottenute dalle modalità della X.
    Essa rappresenta la parte di variabilità di Y che non dipende dagli attributi assunti dalla X.
  • Devianza Between è pari alla devianza delle medie condizionate rispetto alla media generale della Y.
    Essa rappresenta la parte della variabilità di Y che dipende, è generata, dalle modalità assunte dalla variabile X.
Componenti della devianza

Componenti della devianza


Interpretazione della scomposizione

La devianza “Between” descrive la variabilità “tra” i gruppi, ossia la variabilità delle medie parziali di Y rispetto alla media generale.
La devianza “Within” descrive la variabilità “interna” ai gruppi, ossia la somma delle variabilità della Y in ciascun gruppo.

Quanto più i gruppi sono ben discriminati tanto maggiore è la componente di variabilità esterna rispetto a quella interna. Ciò implica che la variabile X “spiega” il comportamento della Y.

La variabile X è detta di stratificazione in quanto dalle sue modalità si determinano gli strati o gruppi parziali del collettivo.

Rapporto di correlazione di Pearson

Il rapporto di correlazione η2 di Pearson descrive quanta parte della devianza totale è spiegata dalla variabilità delle medie parziali rispetto alla media generale.

Esso rappresenta una misura normalizzata della devianza between in quanto è ottenuto come rapporto tra questa e la devianza totale (che ne costituisce il massimo).

Il rapporto è pari a 0 quando c’è indipendenza in media ed è pari a 1 in assenza di variabilità interna ai gruppi cioè nel caso di massima dipendenza in media.

Rapporto di Correlazione di Pearson

Rapporto di Correlazione di Pearson


Esempio di calcolo del Rapporto di Correlazione


Prossima lezione

Nella prossima lezione si affronteranno i seguenti argomenti:

  • incorrelazione
  • misure di correlazione lineare
  • Contenuti protetti da Creative Commons
  • Feed RSS
  • Condividi su FriendFeed
  • Condividi su Facebook
  • Segnala su Twitter
  • Condividi su LinkedIn
Progetto "Campus Virtuale" dell'Università degli Studi di Napoli Federico II, realizzato con il cofinanziamento dell'Unione europea. Asse V - Società dell'informazione - Obiettivo Operativo 5.1 e-Government ed e-Inclusion