Quando le variabili che compongono la variabile doppia (X,Y) sono entrambe numeriche, è possibile analizzare un particolare legame statistico tra i caratteri, la correlazione lineare.
Studiare la correlazione lineare significa investigare l’esistenza di un legame per cui a variazioni di un carattere corrispondono variazioni dell’altro carattere secondo una relazione lineare.
Un primo modo per verificare l’esistenza di una correlazione lineare tra due caratteri quantitativi X e Y, è quello di rappresentare la distribuzione doppia (X,Y) attraverso un grafico a dispersione (o scatterplot).
Uno scatterplot è un grafico in cui ogni osservazione della variabile doppia (xl, yl) viene rappresentata come un punto sugli assi cartesiani in cui:
La valutazione della forma della nube dei punti formata dalle osservazioni della distribuzione doppia permette di valutare l’esistenza di una relazione lineare:
Come si può osservare, la forma allungata e la pendenza della nube lasciano supporre l’esistenza di una correlazione lineare positiva.
“A valore grandi della X corrispondono valori grandi della Y, così come a valori piccoli della X corrispondono valori piccoli della Y“.
Poiché, nella realtà, X e Y avranno presumibilmente posizione centrale e variabilità differenti, per una valutazione grafica e analitica della relazione, conviene fare riferimento alle variabili standardizzate.
Zx e Zy avranno entrambe media 0 e varianza 1 per cui:
Da ciò si può affermare che:
Il Coefficiente di correlazione lineare ρ di Pearson fornisce una misura analitica del grado di correlazione lineare esistente tra due caratteri.
Esso è ottenuto come media aritmetica dei prodotti dei valori standardizzati delle variabili X e Y.
Nel caso di concordanza, i prodotti tra i valori Zx e Zy saranno in maggioranza positivi (“positivi x positivi” e “negativi x negativi”) e quindi ρ>0.
Nel caso di discordanza, i prodotti tra i valori di Zx e Zy saranno in maggioranza negativi (“positivi x negativi” e “negativi x positivi”) e quindi ρ<0.
Infatti nel caso intercorrelazione lineare i prodotti positivi e negativi si annulleranno facendo sì che ρ = 0.
Si definisce come
dove
rappresentano la covarianza.
Si dimostra che -1 ≤ ρXY ≤ 1
Il coefficiente di correlazione lineare può essere ottenuto anche come rapporto tra la covarianza e il prodotto degli scarti quadratici medi di X e Y.
Questa formulazione consente di determinare il campo di variazione di ρ.
La disuguaglianza di Cauchy e Schwartz dimostra che il quadrato della covarianza tra X e Y non è mai superiore al prodotto delle varianze di X e Y.
[Cov(X,Y)]2≤Var(X)*Var(Y)
da cui si ottiene (eliminando il quadrato)
|Cov(X,Y)|≤SQM(X)*SQM(Y)
“la covarianza in valore assoluto ha come massimo il prodotto degli scarti quadratici medi di X e Y”
che implica
-1≤ ρ ≤1
Per ρ = 1 si ha perfetta correlazione positiva tra X e Y
Per ρ = -1 si ha perfetta correlazione negativa tra X e Y
Per ρ = 0 si ha incorrelazione tra X e Y.
NB. Se i caratteri X e Y sono indipendenti (in senso assoluto) allora saranno anche incorrelati.
X2=0 → ρ=0
Non è vero il contrario, in quanto l’indipendenza assoluta è un concetto più forte che implica l’indipendenza in media e l’indipendenza in media lineare.
La covarianza (Codevianza/N) è nulla → incorrelazione lineare
Nel grafico si può notare come, al crescere di X, la Y varia secondo una forma a parabola.
Ciò significa che esiste una relazione funzionale tra X e Y ma questa non è lineare.
In conclusione
Le variabili sono linearmente incorrelate ma non indipendenti!!!!
Nella prossima lezione si affronteranno i seguenti argomenti:
2. Caratteri statistici e scale di misura
3. Sintesi tabellare e grafica di una distribuzione statistica
6. Forma di una distribuzione statistica
7. Distribuzioni doppie di frequenza
8. Relazioni tra variabili: associazione e dipendenza in media
9. Relazioni tra variabili: Correlazione lineare
10. Interpolazione statistica e Retta di regressione
11. Elementi di calcolo delle probabilità
12. Introduzione alle variabili casuali
13. Modelli per variabili casuali discrete di uso comune
14. Modelli per variabili casuali continue di uso comune
15. Introduzione alle serie storiche
16. Approccio classico: Modello di decomposizione di una serie storica