Lo studio delle relazioni esistenti tra due variabili statistiche parte dalla definizione del concetto di indipendenza.
In particolare, in statistica si considerano tre concetti di indipendenza tra caratteri:
Si parla di indipendenza assoluta (o indipendenza in distribuzione) tra due caratteri quando le modalità assunte dalla X non modificano la distribuzione di Y.
In altre parole, la distribuzione condizionata della Y dato X=xi non cambia per qualunque i=1,2,…,k.
Similmente, la distribuzione condizionata della X dato Y=yj non cambia per qualunque j=1,2,…,h.
Quando tra due variabili X e Y vi è indipendenza assoluta, allora i profili (le distribuzioni condizionate espresse in termini di frequenze relative) riga saranno tutti uguali tra loro e pari al profilo medio.
Analogamente ciò sarà vero anche per i profili colonna.
Da questa affermazione è possibile derivare un’ulteriore definizione di indipendenza assoluta:
“X e Y si dicono indipendenti quando le frequenze osservate sono uguali alle frequenze teoriche per ogni cella (i,j) della distribuzione doppia”.
Indipendenza in distribuzione
Si ha quando le frequenze osservate in ogni cella (i,j) equivalgono alle frequenze “teoriche”
Le distribuzioni condizionate relative (profili) si equivalgono
per riga
per colonna
La costruzione di un indice che misuri il grado di connessione tra due caratteri statistici X e Y si basa sul concetto di contingenza.
Si definisce contingenza cij la differenza tra la frequenza osservata e la frequenza teorica di una generica cella ij.
Nel caso di indipendenza le contingenze sono tutte nulle mentre queste cresceranno, in valore assoluto, al crescere del grado di dipendenza tra i caratteri.
Contingenze
dove:
La somma delle contingenze è sempre nulla!!
Il grado di connessione tra due caratteri statistici si misura attraverso l’indice di connessione di Pearson (X2).
Esso è ottenuto come somma delle contingenze quadratiche relative.
L’indice assume valore pari a zero in caso di indipendenza in distribuzione e aumenta al crescere del grado di connessione.
Solitamente l’indice X2 è impiegato per la misurare la relazione tra due mutabili.
Infatti per questo tipo di variabili l’unica informazione analizzabile riguarda le frequenze congiunte.
Indice di connessione del Pearson
dove
[min(k,h)-1] indica il più piccolo valore tra il numero di righe e il numero di colonne della tabella meno 1.
Per svincolare l’indice X2 dalla numerosità N della popolazione, sono state proposte numerose varianti tra cui:
Ulteriori indici di connessione
Indice di contingenza media quadratica
indice V di Cramer
Sia X una mutabile e Y una variabile quantitativa e sia (X,Y) la variabile doppia generata dall’osservazione congiunta di X e Y.
In questo caso, nello studio della relazione doppia è possibile considerare un diverso concetto di dipendenza che coinvolge anche i valori assunti dalla variabile quantitativa.
Si diche che Y è indipendente in media da X, se al variare delle modalità della X, le medie delle distribuzioni condizionate di Y (medie condizionate) rimangono costanti.
Indipendenza in media → M(Y|x1)=M(Y|x2),…, M(Y|xi),…, M(Y|xk)=M(Y)
L’indipendenza in distribuzione implica quella in media ma non è vero il contrario.
Nella tabella si riporta la distribuzione dei prezzi di un certo prodotto venduto in tre diverse città italiane.
Le medie condizionate sono diverse tra loro e quindi diverse dalla media generale.
Non vi è indipendenza in media!
Partendo da una distribuzione mista, è possibile scomporre la variabilità complessiva della variabile Y (carattere quantitativo) rispetto alle modalità della variabile X (mutabile).
Questo importante risultato prende il nome di scomposizione della devianza.
La devianza totale della Y è scomposta in due quantità:
Tale che
Dev(Tot)=Dev(W)+Dev(B)
Sviluppando il quadrato si dimostra che il doppio prodotto è nullo!
In questo modo è possibile spiegare la variabilità complessiva del carattere quantitativo attraverso le due componenti:
Componenti della devianza
dove
Dev(W) è la devianza interna (Within)
Dev(B) è la devianza esterna (Between)
La devianza “Between” descrive la variabilità “tra” i gruppi, ossia la variabilità delle medie parziali di Y rispetto alla media generale.
La devianza “Within” descrive la variabilità “interna” ai gruppi, ossia la somma delle variabilità della Y in ciascun gruppo.
Quanto più i gruppi sono ben discriminati tanto maggiore è la componente di variabilità esterna rispetto a quella interna. Ciò implica che la variabile X “spiega” il comportamento della Y.
La variabile X è detta di stratificazione in quanto dalle sue modalità si determinano gli strati o gruppi parziali del collettivo.
Il rapporto di correlazione η2 di Pearson descrive quanta parte della devianza totale è spiegata dalla variabilità delle medie parziali rispetto alla media generale.
Esso rappresenta una misura normalizzata della devianza between in quanto è ottenuto come rapporto tra questa e la devianza totale (che ne costituisce il massimo).
Il rapporto è pari a 0 quando c’è indipendenza in media ed è pari a 1 in assenza di variabilità interna ai gruppi cioè nel caso di massima dipendenza in media.
Rapporto di Correlazione di Pearson
Il rapporto di correlazione è un indice NON SIMMETRICO
… continuando l’esempio visto in precedenza
La Devianza totale è pari a: Dev(Y) = (90-102)2 ·12+(120-102)2 · 8 = 1728 + 2592 = 4320
La Devianza interna per la città di Roma è: Dev(Y|x = RO) = (90-105)2 · 3 + (120-105)2 · 3 =1350
La Devianza interna per la città di Napoli è: Dev(Y|x=NA) = (90-96,67)2 · 7 + (120-96,67)2 · 2 = 1400
La Devianza interna per la città di Firenze è: Dev(Y|x=FI) = (90-108)2 · +(120-108)2 · 3 = 1080
La Devianza interna ai gruppi è pari a: Dev(Within) = Dev(Y|x=RO) + Dev(Y|x=NA) + Dev(Y|x=FI) = 3830
La Devianza tra i gruppi è pari a: Dev(Between) = (105-102)2 · 6 + (96,67-102)2 · 9 + (108-102)2 · 5 = 490
La Devianza Totale è pari alla somma della Devianza Between e della Devianza Within
Dev(T) = Dev(B) + Dev(W) = 490+3830 = 4320
Il rapporto di correlazione è:
Esiste una scarsa dipendenza in media!
Nella prossima lezione si affronteranno i seguenti argomenti:
2. Caratteri statistici e scale di misura
3. Sintesi tabellare e grafica di una distribuzione statistica
6. Forma di una distribuzione statistica
7. Distribuzioni doppie di frequenza
8. Relazioni tra variabili: associazione e dipendenza in media
9. Relazioni tra variabili: Correlazione lineare
10. Interpolazione statistica e Retta di regressione
11. Elementi di calcolo delle probabilità
12. Introduzione alle variabili casuali
13. Modelli per variabili casuali discrete di uso comune
14. Modelli per variabili casuali continue di uso comune
15. Introduzione alle serie storiche
16. Approccio classico: Modello di decomposizione di una serie storica