Vai alla Home Page About me Courseware Federica Living Library Federica Federica Podstudio Virtual Campus 3D Le Miniguide all'orientamento Gli eBook di Federica La Corte in Rete
 
I corsi di Scienze Politiche
 
Il Corso Le lezioni del Corso La Cattedra
 
Materiali di approfondimento Risorse Web Il Podcast di questa lezione

Carmela Cappelli » 10.Legami tra variabili casuali


Legame tra vc

Nel caso delle variabili casuali doppie del tipo (X,Y) riveste particolare interesse lo studio del legame esistente tra le due vc componenti.
Studieremo due tipi di legame:

  1. Legame di tipo lineare attraverso il coefficiente di correlazione;
  2. Legame di tipo generico, mediante la funzione di regressione.

La covarianza

Data la vc doppia (X,Y), una misura delle “comuni variazioni” delle due vc componenti è fornita dalla covarianza che rappresenta il valore medio del prodotto delle vc corrispondenti scarto:
Cov(X,Y)=\sigma_{xy}=E[(X-\mu_x)(Y-\mu_y)]

Pertanto la covarianza è il momento misto di ordine 1+1 delle vc scarto.
A fini computazionali giova ricordare che grazie allo sviluppo dell’operatore valore medio E(.) si ha il seguente risultato:

Cov(X,Y)=E[(XY)]-E(X)E(Y)

Proprietà della covarianza

La covarianza gode delle seguenti proprietà:

Cov(a+bX,Y)=bCov(X,Y)
Cov(a+bX, c+dY)=bdCov(X,Y)

Da tali proprietà discende che la covarianza è invariante rispetto a traslazioni ma non a cambiamenti di scala.

Il coefficiente di correlazione

Siccome la covarianza risente dell’unità di misura in cui sono espresse le variabili X ed Y, allora è opportuno considerare le vc standardizzate   Corr(X,Y)=\rho_{xy}=E[\frac{(X-\mu_x)}{\sigma_x}\frac{(Y-\mu_y)}{\sigma_y}]
Tale momento misto di ordine 1+1 delle vc standardizzate prende il nome di coefficiente di correlazione lineare di Pearson e rappresenta appunto una misura del legame lineare esistente tra le vc componenti.
E’ agevole dimostrare che:
Corr(X,Y)=\frac{Cov(XY)}{\sqrt{[E(X^2)-[E(X)]^2] [E(Y^2)-[E(Y)]^2]}}

Si noti che in tale caso il coefficiente di correlazione esprime un legame di tipo probabilistico pertanto la affermazione che \rho_{xy}=1 segnala che la probabilità che ad esempio Y sia funzione lineare di X è pari ad 1 e pertanto la distribuzione della vc doppia (X,Y) è degenere.

Il coefficiente di correlazione (segue)

Tanto il concetto di covarianza che quello di correlazione si estendono al caso di vc multivariate di ordine k. Infatti, calcolando tali misure per tutte le coppie di vc componenti si ottengono rispettivamente:

  • La matrice di covarianza \mathbf{\Sigma} che riporta sulla diagonale principale le varianze delle singole vc componenti (essendo Cov(XX)=Var(X)) e al di fuori della diagonale principale le covarianze tra le coppie di variabili;
  • La matrice di correlazione \textbf C che ha tutti 1 sulla diagonale principale (essendo Corrv(XX)=1) e al di fuori della diagonale principale il coefficiente di correlazione tra le coppie di variabili.

Indipendenza in media

Un altro tipo di legame che è possibile studiare tra le vc componenti di una vc doppia deriva dai valori medi delle vc condizionate E(X|Y) ed E(Y|X) .

Infatti, si consideri il valore medio condizionato E(Y|X), se esso non varia al variare dei valori assunti dalla vc X, ciò suggerisce che i valori assunti dalla X non influenzano in media il valore di Y e si dice pertanto che Y è indipendente in media da X.

La funzione di regressione

I valori medi delle vc condizionate  E(X\mid Y)=m(X\mid Y) ed   E(Y\mid X)=m(Y \mid X) prendono il nome di funzione di regressione.
La funzione di regressione è una vc la cui distribuzione di probabilità è esplicitata dalla distribuzione di probabilità della corrispondente vc condizionata. Analogamente il valore atteso della funzione di regressione è quello della vc di cui si studia il condizionamento.
Ad esempio considerando la funzione di regressione m(Y \mid X) e, per semplicità espositiva il caso discreto, si ha:
E[m(Y\mid X)]= \sum_{x}\sum_{y} y \frac{p(xy)}{p(x)} p(x)=\sum_{y} y \sum_{x}p(xy) =\sum_{y} y p(y) =\mu_y

La funzione di regressione (segue)

A partire dal risultato appena visto è possibile ottenere la varianza della vc Y tramite i valori medi della funzione di regressione. E’ infatti possibile dimostrare che:  Var(Y)= Var(Y \mid X) + Var[m(Y \mid X)]

Dove:

  • Var(Y \mid X) = E[ Y- m(Y\mid X)]^2 è detta varianza residua e rappresenta la variabilità della vc Y intorno alla funzione di regressione, se tale termine è nullo allora Y assume con probabilità pari 1 il valore della funzione di regressione che quindi ha natura deterministica poiché la conoscenza dei valori assunti dalla variabile condizionante X portano alla conoscenza certa di Y;
  • Var[m(Y \mid X)] = E[m(Y \mid X) -\mu_y]^2 è detta varianza di regressione e rappresenta la variabilità della funzione di regressione intorno al suo valore atteso (che coincide con quello della vc Y), se tale termine è nullo allora la funzione di regressione è costante e non variando non fornisce alcun contributo informativo sulla vc Y noto il valore di X.

Il rapporto di correlazione

La decomposizione appena vista rivesta una notevole importanza nell’ambito della statistica in virtù del seguente teorema.
Data una vc doppia (XY) ed una funzione g(X) della vc X, il valore medio: E [Y- g(X)] è minimo quando g(X) è la funzione di regressione.
Allora indice che viene utilizzato per valutare la intensità del legame esistente tra X ed Y in termini di dipendenza in media:
\eta_{Y \mid X}^2 = \frac{Var(m(Y \mid X))}{Var(Y)}

Rapporto di correlazione e coefficiente di correlazione

Occorre sottolineare che il rapporto di correlazione non va confuso con il coefficiente di correlazione.
Il primo infatti è una misura della bontà di adattamento tramite una qualsivoglia funzione di regressione poiché nessuna condizione viene posta sulla sua forma funzionale, al contrario il coefficiente di correlazione è una misura dotata di segno positivo o negativo della intensità del legame lineare tra due vc.
Nel solo caso in cui la funzione di regressione sia lineare e quindi m(Y \mid X)= a+bX allora si dimostra che \eta_{Y \mid X} = \rho _{Y \mid X} ovvero, le due misure pur restando concettualmente differenti sono numericamente coincidenti.

  • Contenuti protetti da Creative Commons
  • Feed RSS
  • Condividi su FriendFeed
  • Condividi su Facebook
  • Segnala su Twitter
  • Condividi su LinkedIn
Progetto "Campus Virtuale" dell'Università degli Studi di Napoli Federico II, realizzato con il cofinanziamento dell'Unione europea. Asse V - Società dell'informazione - Obiettivo Operativo 5.1 e-Government ed e-Inclusion