Lo studio delle relazioni esistenti tra due variabili statistiche parte dalla definizione del concetto di indipendenza.
In particolare, in statistica si considerano tre concetti di indipendenza tra caratteri:
Si parla di indipendenza assoluta (o indipendenza in distribuzione) tra due caratteri quando le modalità assunte dalla X non modificano la distribuzione di Y.
In altre parole, la distribuzione condizionata della Y dato X=xi non cambia per qualunque i=1,2,…,k.
Similmente, la distribuzione condizionata della X dato Y=yj non cambia per qualunque j=1,2,…,h.
Quando tra due variabili X e Y vi è indipendenza assoluta, allora i profili (le distribuzioni condizionate espresse in termini di frequenze relative) riga saranno tutti uguali tra loro e pari al profilo medio.
Analogamente ciò sarà vero anche per i profili colonna.
Da questa affermazione è possibile derivare un’ulteriore definizione di indipendenza assoluta:
“X e Y si dicono indipendenti quando le frequenze osservate sono uguali alle frequenze teoriche per ogni cella (i,j) della distribuzione doppia”.
La costruzione di un indice che misuri il grado di connessione tra due caratteri statistici X e Y si basa sul concetto di contingenza.
Si definisce contingenza cij la differenza tra la frequenza osservata e la frequenza teorica di una generica cella ij.
Nel caso di indipendenza le contingenze sono tutte nulle mentre queste cresceranno, in valore assoluto, al crescere del grado di dipendenza tra i caratteri.
Il grado di connessione tra due caratteri statistici si misura attraverso l’indice di connessione di Pearson (X2).
Esso è ottenuto come somma delle contingenze quadratiche relative.
L’indice assume valore pari a zero in caso di indipendenza in distribuzione e aumenta al crescere del grado di connessione.
Solitamente l’indice X2 è impiegato per la misurare la relazione tra due mutabili.
Infatti per questo tipo di variabili l’unica informazione analizzabile riguarda le frequenze congiunte.
Per svincolare l’indice X2 dalla numerosità N della popolazione, sono state proposte numerose varianti tra cui:
Sia X una mutabile e Y una variabile quantitativa e sia (X,Y) la variabile doppia generata dall’osservazione congiunta di X e Y.
In questo caso, nello studio della relazione doppia è possibile considerare un diverso concetto di dipendenza che coinvolge anche i valori assunti dalla variabile quantitativa.
Si diche che Y è indipendente in media da X, se al variare delle modalità della X, le medie delle distribuzioni condizionate di Y (medie condizionate) rimangono costanti.
Indipendenza in media → M(Y|x1)=M(Y|x2),…, M(Y|xi),…, M(Y|xk)=M(Y)
L’indipendenza in distribuzione implica quella in media ma non è vero il contrario.
Partendo da una distribuzione mista, è possibile scomporre la variabilità complessiva della variabile Y (carattere quantitativo) rispetto alle modalità della variabile X (mutabile).
Questo importante risultato prende il nome di scomposizione della devianza.
La devianza totale della Y è scomposta in due quantità:
Tale che:
In questo modo è possibile spiegare la variabilità complessiva del carattere quantitativo attraverso le due componenti:
La devianza “Between” descrive la variabilità “tra” i gruppi, ossia la variabilità delle medie parziali di Y rispetto alla media generale.
La devianza “Within” descrive la variabilità “interna” ai gruppi, ossia la somma delle variabilità della Y in ciascun gruppo.
Quanto più i gruppi sono ben discriminati tanto maggiore è la componente di variabilità esterna rispetto a quella interna. Ciò implica che la variabile X “spiega” il comportamento della Y.
La variabile X è detta di stratificazione in quanto dalle sue modalità si determinano gli strati o gruppi parziali del collettivo.
Il rapporto di correlazione η2 di Pearson descrive quanta parte della devianza totale è spiegata dalla variabilità delle medie parziali rispetto alla media generale.
Esso rappresenta una misura normalizzata della devianza between in quanto è ottenuto come rapporto tra questa e la devianza totale (che ne costituisce il massimo).
Il rapporto è pari a 0 quando c’è indipendenza in media ed è pari a 1 in assenza di variabilità interna ai gruppi cioè nel caso di massima dipendenza in media.
Nella prossima lezione si affronteranno i seguenti argomenti:
1. Introduzione
3. Distribuzioni di frequenza e rappresentazioni grafiche
4. Indici statistici di posizione
5. Indici statistici di variabilità
6. Forma di una distribuzione statistica
7. Distribuzioni doppie di frequenza
8. Relazioni tra variabili: Associazione e dipendenza in media
9. Relazioni tra variabili: Correlazione lineare
11. Rapporti statistici e numeri indici
12. Introduzione al calcolo delle probabilità