Vai alla Home Page About me Courseware Federica Living Library Federica Federica Podstudio Virtual Campus 3D La Corte in Rete
 
Il Corso Le lezioni del Corso La Cattedra
 
Materiali di approfondimento Risorse Web Il Podcast di questa lezione

Massimo Aria » 9.Relazioni tra variabili: Correlazione lineare


La correlazione lineare

Quando le variabili che compongono la variabile doppia (X,Y) sono entrambe numeriche, è possibile analizzare un particolare legame statistico tra i caratteri, la correlazione lineare.

Studiare la correlazione lineare significa investigare l’esistenza di un legame per cui a variazioni di un carattere corrispondono variazioni dell’altro carattere secondo una relazione lineare.

Analisi grafica della correlazione

Un primo modo per verificare l’esistenza di una correlazione lineare tra due caratteri quantitativi X e Y, è quello di rappresentare la distribuzione doppia (X,Y) attraverso un grafico a dispersione (o scatterplot).

Uno scatterplot è un grafico in cui ogni osservazione della variabile doppia (xl, yl) viene rappresentata come un punto sugli assi cartesiani in cui:

  • all’asse delle ascisse sono associati i valori della variabile X
  • all’asse delle ordinate sono invece associati i valori della variabile Y

Diagramma a dispersione

La valutazione della forma della nube dei punti formata dalle osservazioni della distribuzione doppia permette di valutare l’esistenza di una relazione lineare:

  • una nube tondeggiante senza una pendenza definita implica l’assenza di una significativa correlazione lineare tra X e Y
  • una nube a forma allungata (cosiddetta “a sigaro”) implica invece l’esistenza di una correlazione lineare positiva o negativa a seconda dell’inclinazione della forma assunta
Alcuni esempi di nube dei punti

Alcuni esempi di nube dei punti


Esempio di Diagramma a dispersione

Come si può osservare, la forma allungata e la pendenza della nube lasciano supporre l’esistenza di una correlazione lineare positiva.

A valore grandi della X corrispondono valori grandi della Y, così come a valori piccoli della X corrispondono valori piccoli della Y“.

Scatterplot della distribuzione unitaria della variabile doppia (X,Y) “fatturato e addetti”

Scatterplot della distribuzione unitaria della variabile doppia (X,Y) “fatturato e addetti”


Dispersione tra variabili standardizzate

Poiché, nella realtà, X e Y avranno presumibilmente posizione centrale e variabilità differenti, per una valutazione grafica e analitica della relazione, conviene fare riferimento alle variabili standardizzate.

Zx e Zy avranno entrambe media 0 e varianza 1 per cui:

  • la nube dei punti si presenterà centrata sull’origine degli assi
  • gli scostamenti di X e Y saranno confrontabili in quanti espressi entrambi in unità di misura standard

Da ciò si può affermare che:

  • vi sarà concordanza tra X e Y quando a valori positivi di Zx corrisponderanno per lo più valori positivi di Zy e al contempo a valori negativi di Zx corrisponderanno in maggioranza valori negativi di Zy
  • vi sarà discordanza tra X e Y nella situazione contraria
Esempio di diagramma a dispersione con valori standard

Esempio di diagramma a dispersione con valori standard


Coefficiente di correlazione lineare

Il Coefficiente di correlazione lineare ρ di Pearson fornisce una misura analitica del grado di correlazione lineare esistente tra due caratteri.

Esso è ottenuto come media aritmetica dei prodotti dei valori standardizzati delle variabili X e Y.

Nel caso di concordanza, i prodotti tra i valori Zx e Zy saranno in maggioranza positivi (“positivi x positivi” e “negativi x negativi”) e quindi ρ>0.

Nel caso di discordanza, i prodotti tra i valori di Zx e Zy saranno in maggioranza negativi (“positivi x negativi” e “negativi x positivi”) e quindi ρ<0.

Infatti nel caso intercorrelazione lineare i prodotti positivi e negativi si annulleranno facendo sì che ρ = 0.

Il coefficiente di correlazione lineare

Si definisce come

\rho_{XY}=\frac 1 N \sum_{l=1}^Nz_{xl}z_{yl}=\frac 1N\sum_{l=1}^N\frac{x_l-\mu_X}{\sigma_X}\frac{y_l-\mu_Y}{\sigma_Y}=

=\frac{\frac 1 N\sum(x_l-\mu_X)(y_l-\mu_Y)}{\sigma_X\sigma_Y}=\frac{\sigma_{XY}}{\sigmaX\sigma_Y}

dove

\frac 1 N\sum(x_l-\mu_X)(y_l-\mu_Y) \hspace{1cm}\text{e}\hspace{1cm} {\sigma_{XY}}

rappresentano la covarianza.

Si dimostra che -1 ≤ ρXY ≤ 1

Disuguaglianza di Cauchy e Schwartz

Il coefficiente di correlazione lineare può essere ottenuto anche come rapporto tra la covarianza e il prodotto degli scarti quadratici medi di X e Y.

Questa formulazione consente di determinare il campo di variazione di ρ.

La disuguaglianza di Cauchy e Schwartz dimostra che il quadrato della covarianza tra X e Y non è mai superiore al prodotto delle varianze di X e Y.

[Cov(X,Y)]2≤Var(X)*Var(Y)

da cui si ottiene (eliminando il quadrato)

|Cov(X,Y)|≤SQM(X)*SQM(Y)

la covarianza in valore assoluto ha come massimo il prodotto degli scarti quadratici medi di X e Y

che implica

-1≤ ρ ≤1

Indipendenza e incorrelazione

Per ρ = 1 si ha perfetta correlazione positiva tra X e Y

Per ρ = -1 si ha perfetta correlazione negativa tra X e Y

Per ρ = 0 si ha incorrelazione tra X e Y.

NB. Se i caratteri X e Y sono indipendenti (in senso assoluto) allora saranno anche incorrelati.

X2=0 → ρ=0

Non è vero il contrario, in quanto l’indipendenza assoluta è un concetto più forte che implica l’indipendenza in media e l’indipendenza in media lineare.

Esempio: variabili incorrelate ma non indipendenti

La covarianza (Codevianza/N) è nulla → incorrelazione lineare

Nel grafico si può notare come, al crescere di X, la Y varia secondo una forma a parabola.

Ciò significa che esiste una relazione funzionale tra X e Y ma questa non è lineare.

In conclusione

Le variabili sono linearmente incorrelate ma non indipendenti!!!!


Alcuni esempi di diagramma a dispersione


Ulteriori esempi di diagramma a dispersione


Esempio di calcolo del coefficiente di correlazione

Coefficiente di correlazione della distribuzione unitaria della variabile doppia (X,Y)

Coefficiente di correlazione della distribuzione unitaria della variabile doppia (X,Y)


Nella prossima lezione

Nella prossima lezione si affronteranno i seguenti argomenti:

  • relazione funzionale tra caratteri
  • relazione lineare
  • interpolazione lineare
  • Contenuti protetti da Creative Commons
  • Feed RSS
  • Condividi su FriendFeed
  • Condividi su Facebook
  • Segnala su Twitter
  • Condividi su LinkedIn
Progetto "Campus Virtuale" dell'Università degli Studi di Napoli Federico II, realizzato con il cofinanziamento dell'Unione europea. Asse V - Società dell'informazione - Obiettivo Operativo 5.1 e-Government ed e-Inclusion

Fatal error: Call to undefined function federicaDebug() in /usr/local/apache/htdocs/html/footer.php on line 93