Quando le variabili che compongono la variabile doppia (X,Y) sono entrambe numeriche, è possibile analizzare un particolare legame statistico tra i caratteri, la correlazione lineare.
Studiare la correlazione lineare significa investigare l’esistenza di un legame per cui a variazioni di un carattere corrispondono variazioni dell’altro carattere secondo una relazione lineare.
Un primo modo per verificare l’esistenza di una correlazione lineare tra due caratteri quantitativi X e Y, è quello di rappresentare la distribuzione doppia (X,Y) attraverso un grafico a dispersione (o scatterplot).
Uno scatterplot è un grafico in cui ogni osservazione della variabile doppia (xl, yl) viene rappresentata come un punto sugli assi cartesiani in cui:
La valutazione della forma della nube dei punti formata dalle osservazioni della distribuzione doppia permette di valutare l’esistenza di una relazione lineare:
Poiché, nella realtà, X e Y avranno presumibilmente posizione centrale e variabilità differenti, per una valutazione grafica e analitica della relazione, conviene fare riferimento alle variabili standardizzate.
Zx e Zy avranno entrambe media 0 e varianza 1 per cui:
Da ciò si può affermare che:
Il Coefficiente di correlazione lineare ρ di Pearson fornisce una misura analitica del grado di correlazione lineare esistente tra due caratteri.
Esso è ottenuto come media aritmetica dei prodotti dei valori standardizzati delle variabili X e Y.
Nel caso di concordanza, i prodotti tra i valori Zx e Zy saranno in maggioranza positivi (“positivi x positivi” e “negativi x negativi”) e quindi ρ>0.
Nel caso di discordanza, i prodotti tra i valori di Zx e Zy saranno in maggioranza negativi (“positivi x negativi” e “negativi x positivi”) e quindi ρ<0.
Infine nel caso incorrelazione lineare i prodotti positivi e negativi si annulleranno facendo sì che ρ=0.
Il coefficiente di correlazione lineare può essere ottenuto anche come rapporto tra la covarianza e il prodotto degli scarti quadratici medi di X e Y.
Questa formulazione consente di determinare il campo di variazione di ρ.
La disuguaglianza di Cauchy e Schwartz dimostra che il quadrato della covarianza tra X e Y non è mai superiore al prodotto delle varianze di X e Y.
[Cov(X,Y)]2≤Var(X)*Var(Y)
da cui si ottiene (eliminando il quadrato)
|Cov(X,Y)|≤SQM(X)*SQM(Y)
“la covarianza in valore assoluto ha come massimo il prodotto degli scarti quadratici medi di X e Y”
che implica
-1≤ ρ ≤1
Per ρ=1 si ha perfetta correlazione positiva tra X e Y
Per ρ=-1 si ha perfetta correlazione negativa tra X e Y
Per ρ=0 si ha incorrelazione tra X e Y.
NB. Se i caratteri X e Y sono indipendenti (in senso assoluto) allora saranno anche incorrelati.
X2=0 → ρ=0
Non è vero il contrario, in quanto l’indipendenza assoluta è un concetto più forte che implica l’indipendenza in media e l’indipendenza in media lineare.
Nella prossima lezione si affronteranno i seguenti argomenti:
1. Introduzione
3. Distribuzioni di frequenza e rappresentazioni grafiche
4. Indici statistici di posizione
5. Indici statistici di variabilità
6. Forma di una distribuzione statistica
7. Distribuzioni doppie di frequenza
8. Relazioni tra variabili: Associazione e dipendenza in media
9. Relazioni tra variabili: Correlazione lineare
11. Rapporti statistici e numeri indici
12. Introduzione al calcolo delle probabilità