Vai alla Home Page About me Courseware Federica Living Library Federica Federica Podstudio Virtual Campus 3D La Corte in Rete
 
Il Corso Le lezioni del Corso La Cattedra
 
Materiali di approfondimento Risorse Web Il Podcast di questa lezione

Addolorata Marasco » 6.Correlazione tra variabili. Metodo dei minimi quadrati


Introduzione

Evidenza sperimentale e modelli matematici
Nella Lezione 1, si è evidenziato che una fase fondamentale per la costruzione di un modello matematico consiste nell’analisi del problema reale che consente l’individuazione degli aspetti essenziali del fenomeno che si intende modellizzare. In particolare, se le ipotesi sul fenomeno e l’analisi dei dati sperimentali conducono a stabilire l’esistenza di relazioni evidenti tra le quantità che sono essenziali per la sua descrizione, allora è possibile individuare le variabili indipendenti e quelle dipendenti che intervengono nel fenomeno e ipotizzare un possibile legame funzionale. Tuttavia, in molti casi, le conoscenze acquisite sul fenomeno non consentono di ottenere esplicitamente delle funzioni o delle equazioni che correlino le diverse variabili. In questi casi, occorre raccogliere ed esaminare un numero “statisticamente significativo” di dati sperimentali in modo da ottenere una rappresentazione grafica che possa suggerire quale equazione o funzione matematica è più adatta a descrivere il fenomeno. Qui di seguito si propongono alcuni esempi in cui si evidenzia una correlazione tra dati sperimentali che si riferiscono a due caratteri rilevati su di un campione di una popolazione statistica.

Introduzione (segue)

Esempio 6.1: La Tabella 6.1 riporta il livello medio di biossido di carbonio, misurato in parti per milione, dal 1980 al 1998 al Mauna Loa Observatory.
Utilizzando i dati sperimentali raccolti, costruire un modello matematico per descrivere l’incremento del livello di biossido di carbonio.

Tabella 6.1

Tabella 6.1


Introduzione (segue)

Riportando in un grafico i dati sperimentali si ottiene il diagramma di dispersione in Figura 6.1, dove t rappresenta il tempo (in anni) e C rappresenta il livello di CO2.

Si osservi che i dati sembrano disposti lungo una linea retta, perciò in questo caso appare naturale scegliere un modello lineare.
Tuttavia, vi sono moltissime rette che potrebbero approssimare questi punti. Ad esempio, una possibile scelta è la retta che passa per il primo e per l’ultimo punto e che quindi ha equazione

C=1.56667 t – 2763.51 …….. (6.1)

L’equazione (6.1) definisce un possibile modello lineare che descrive l’incremento del biossido di carbonio (cfr. Figura 6.2). Sebbene questa modellizzazione segua l’andamento dei dati in modo ragionevolmente buono, essa assegna quasi costantemente valori di CO2 che sono superiori ai valori reali.
Si può ottenere un modello migliore utilizzando i metodi statistici della regressione lineare.

Figura 6.1

Figura 6.1

Figura 6.2

Figura 6.2


Introduzione (segue)

Esempio 6.2: La Tabella 6.2 descrive numericamente la crescita della popolazione mondiale dal 1900 al 2000.
Riportando in grafico i dati raccolti si ottiene la Figura 6.3 in cui si evidenzia che la popolazione ha una crescita generalmente molto veloce che è rallentata solo nei periodi delle due guerre mondiali.
In questo caso, il diagramma di dispersione suggerisce che la funzione di interpolazione dei dati non è lineare, ma presenta un andamento di tipo esponenziale, di conseguenza appare naturale la scelta di un modello esponenziale. Tuttavia, nonostante l’evidenza sperimentale, è impossibile trovare una formula che rappresenti esattamente la popolazione P(t) a ogni istante t, ma utilizzando i metodi di linearizzazione è possibile determinare l’espressione della funzione esponenziale che “meglio approssimi” i dati sperimentali come mostrato nella Figura 6.3.

Tabella 6.2

Tabella 6.2

Figura 6.3

Figura 6.3


Introduzione (segue)

Esempio 6.3: In una sperimentazione si rilevano i dati in Tabella 6.3, a cui corrisponde il diagramma di dispersione in Figura 6.4.

Il grafico evidenzia che i dati non seguono un modello lineare ma presentano un andamento polinomiale. Utilizzando i metodi di linearizzazione è possibile individuare la curva che meglio approssima i dati (in questo caso si tratta di una parabola) come mostrato in Figura 6.5.

Tabella 6.3

Tabella 6.3


Correlazione campionaria

Come si è visto nei precedenti esempi, in molti casi non si ha a disposizione una sequenza di dati singoli, ma sequenze di due o più dati tra i quali esiste una qualche relazione: analisi di tipo comparativo.
Nel caso di campioni bivariati si eseguono osservazioni su coppie di dati rilevati su di un medesimo gruppo di individui (ad esempio peso e altezza, …).
Il primo passo per la verifica dell’esistenza di una correlazione tra le variabili osservate, consiste nel disegnare un diagramma di dispersione, cioè rappresentare nel piano cartesiano le singole osservazioni con punti o cerchietti. Nell’Esempio 6.1 si è ipotizzata una relazione lineare tra le variabili, in effetti la Statistica Matematica fornisce utili strumenti per verificare l’esistenza di una correlazione lineare tra campioni bivariati.
Assegnate n osservazioni congiunte (x1,y1), (x2,y2),…, (xn, yn) di due variabili x e y, si definisce covarianza campionaria delle due variabili x e y il seguente numero

s_{xy}=\frac 1{n-1}\sum_{i=1}^n(x_i-\bar x)(y_i-\bar y)

dove \bar x e \bar y sono le medie campionarie delle osservazioni xi,yi, i=1,…,n.
Si dice coefficiente di correlazione campionaria delle variabili x e y il seguente numero

r_{xy}=\frac{\sum_{i=1}^n (x_i-\bar x)(y_i-\bar y)}{\sum_{i=1}^n (x_i - \bar x)^2 \cdot \sum_{i=1}^n(y_i-\bar y)^2}\equiv \frac{S_{xy}}{s_xs_y}

dove sx ed sy sono le varianze campionarie delle variabili x e y.

Correlazione campionaria (segue)

Si prova che

sxy >0  ⇒ le variabili x e y sono correlate positivamente,

sxy < 0 ⇒ le variabili x e y sono correlate negativamente,

sxy = 0 ⇒ le variabili x e y non sono correlate.

Inoltre, valgono le seguenti proprietà per il coefficiente di correlazione campionaria:

  1. -1≤r ≤1
  2. r=1 ⇔ i punti (x1,y1), (x2,y2),…, (xn, yn) sono allineati sulla retta y = A x +B con A>0
  3. r=-1 ⇔  i punti (x1,y1), (x2,y2),…, (xn, yn) sono allineati sulla retta y = A x +B con A<0
  4. I dati (x1,y1),…, (xn, yn) e (ax1+b,cy1+d),…, (axn+b, cyn+d), con a e c entrambi positivi o entrambi negativi, ammettono lo stesso coefficiente di correlazione campionaria. In altre parole, il coefficiente di correlazione non dipende dalle unità di misura scelte per i dati.

In definitiva, il coefficiente di correlazione campionaria è una misura della correlazione lineare esistente tra i dati.

Metodo dei minimi quadrati e regressione lineare

Se il diagramma di dispersione suggerisce una relazione lineare tra i dati e inoltre, il valore del coefficiente di correlazione in modulo è prossimo ad uno, anche se tra i dati non esiste una relazione perfettamente lineare, ha senso determinare l’equazione di una retta che approssimi i dati nel “miglior modo possibile”. Il metodo dei minimi quadrati consente di determinare l’equazione di questa retta: retta di regressione o dei minimi quadrati. Siano (x1,y1), (x2,y2),…, (xn, yn) n dati sperimentali osservati in una popolazione, si definisce retta di regressione o dei minimi quadrati la retta di equazione

y=Ax+B

per la quale è minima la quantità

E=\sum_{i=1}^n(Ax_i+B-y_i)^2

che rappresenta la somma dei quadrati delle distanze di ciascun dato sperimentale (xi,yi) dal corrispondente punto sulla retta (xi,Axi+B) (cfr. Figura 6.6).

Figura 6.6: Metodo dei minimi quadrati

Figura 6.6: Metodo dei minimi quadrati


Metodo dei minimi quadrati e regressione lineare (segue)

Si dimostra che i coefficienti A e B della retta di regressione sono soluzioni del seguente sistema delle equazioni normali.

\left\{\begin{array}{ll}A\sum_{i=1}^n x_i^2+B\sum_{i=1}^nx_i=\sum_{i=1}^nx_iy_i, \\ \\A\sum_{i=1}^nx_i+nB=\sum_{i=1}^ny_i \end{array}

E’ facile provare che il sistema delle equazioni normali ammette una ed una sola soluzione purché i punti non siano allineati su di una retta verticale. Inoltre, si dimostra che

A=\frac{s_{xy}}{s_x^2}, ~~~~B=\bar y -A\bar x

Esempio 6.4: Nella Tabella 6.4 sono riportate le misure del volume di una quantità di un gas a differenti temperature. Sia il diagramma di dispersione dei dati che il valore numerico del coefficiente di correlazione suggeriscono l’esistenza di una relazione lineare. Risolvendo il sistema delle equazioni normali risulta

A\simeq 0.035,~~~B\simeq 10.22

e la retta di regressione ha equazione (cfr Figura 6.7).

V=0.035t + 10.22

Tabella 6.4

Tabella 6.4

Figura 6.7: Retta di regressione per i dati dell’Esempio 6.4

Figura 6.7: Retta di regressione per i dati dell'Esempio 6.4


Metodo dei minimi quadrati e regressione lineare (segue)

Si osservi che l’aver sintetizzato i dati sperimentali mediante un modello matematico descritto in questo caso da una funzione lineare ha un notevole interesse nelle applicazioni. Infatti, all’interno del range di valori [x1,xn], cioè tra il primo e l’ultimo valore osservato per la variabile indipendente x, è possibile individuare con buona approssimazione il valore corrispondente della variabile dipendente y mediante l’equazione della retta di regressione y=Ax+B. Quindi, anche se il modello è stato costruito solo a partire dall’analisi dei dati sperimentali, è ancora possibile fare previsioni sull’andamento del fenomeno nell’intervallo [x1,xn]: interpolazione dei dati.
Al contrario, tutte le previsioni al di fuori dell’intervallo di osservazione [x1,xn] sono affette da maggiore incertezza: estrapolazione dei dati.
Inoltre, anche in quei casi in cui il modello matematico di un fenomeno risulta evidente, la stima dei parametri sperimentali al suo interno non può che condursi come mostrato in queste slides per la regressione lineare.

Regressione polinomiale

Come si mostra negli esempi 6.2 e 6.3, in molti casi è possibile rilevare una correlazione tra le variabili non di tipo lineare. In questi casi, è necessario individuare una funzione che interpoli i dati mediante un polinomio di grado più elevato. Ad esempio, per i dati nell’Esempio 6.3, si dovrà individuare una parabola dei minimi quadrati.

y=Ax^2+Bx+C

per la quale è minima la quantità

E=\sum_{i=1}^n(Ax^2_i+Bx_i+C-y_i)^2

che rappresenta la somma dei quadrati delle distanze di ciascun dato sperimentale (xi,yi) dal corrispondente punto sulla parabola.
Si dimostra che i coefficienti A, B e C della parabola di regressione sono soluzioni del seguente sistema delle equazioni normali:

\left\{\begin{array}{lll} A\sum_{i=1}^n x_i^4+B\sum_{i=1}^n x_i^3+C\sum_{i=1}^nx_i^2=\sum_{i=1}^n x_i^2y_i, \\ \\ A\sum_{i=1}^n x_i^3+B\sum_{i=1}^n x_i^2+C\sum_{i=1}^nx_i=\sum_{i=1}^n x_iy_i,\\ \\ A\sum_{i=1}^n x_i^2+B\sum_{i=1}^nx_i+nC=\sum_{i=1}^ny_i,\end{array}\right.

e che questo sistema ammette una ed una sola soluzione purchè i punti non siano tutti allineati su di una retta.

Esercizi di verifica

Esercizio 6.1: Per ciascun diagramma di dispersione in Figura 6.8, stabilire quale tipo di funzione si potrebbe adottare come modello per i dati, spiegando le scelte effettuate.
Esercizio 6.2: Verificare graficamente che i dati sperimentali in Tabella 6.5 seguono un modello lineare e quindi determinare la retta di regressione.

Figura 6.8

Figura 6.8

Tabella 6.5

Tabella 6.5


Esercizi di verifica (segue)

Esercizio 6.3: Verificare mediante un diagramma di dispersione che le osservazioni in Tabella 6.6, relative al tempo impiegato da un PC per processare un fissato numero di dati, hanno un andamento lineare. Infine, determinare la retta di regressione ad essa relativa.

Tabella 6.6

Tabella 6.6


Approfondimenti

Alcuni esercizi di questa lezione sono tratti liberamente dai dati sperimentali presenti nei volumi di J. Stewart.

Le equazioni normali possono derivarsi operando la ricerca del minimo di una funzione di due o più variabili. Per la regressione lineare è facile mostrare che il minimo della funzione errore si ottiene individuandone gli estremi. Ulteriori approfondimenti sono reperibili, ad esempio, su Wikipedia.

  • Contenuti protetti da Creative Commons
  • Feed RSS
  • Condividi su FriendFeed
  • Condividi su Facebook
  • Segnala su Twitter
  • Condividi su LinkedIn
Progetto "Campus Virtuale" dell'Università degli Studi di Napoli Federico II, realizzato con il cofinanziamento dell'Unione europea. Asse V - Società dell'informazione - Obiettivo Operativo 5.1 e-Government ed e-Inclusion

Fatal error: Call to undefined function federicaDebug() in /usr/local/apache/htdocs/html/footer.php on line 93