Vai alla Home Page About me Courseware Federica Living Library Federica Federica Podstudio Virtual Campus 3D Le Miniguide all'orientamento Gli eBook di Federica La Corte in Rete
 
 
Il Corso Le lezioni del Corso La Cattedra
 
Materiali di approfondimento Risorse Web Il Podcast di questa lezione

Addolorata Marasco » 8.Laboratorio 3: correlazione tra variabili, rette e curve di regressione


Correlazione lineare e rette di regressione

Com’è noto dalla Lezione 1, una fase fondamentale per la costruzione di un modello matematico consiste nell’analisi del problema reale che consente l’individuazione degli aspetti essenziali del fenomeno che si intende modellizzare. In particolare, se le ipotesi sul fenomeno e l’analisi dei dati sperimentali conducono a stabilire l’esistenza di relazioni evidenti tra le quantità che sono essenziali per la sua descrizione, allora è possibile individuare le variabili indipendenti e quelle dipendenti che intervengono nel fenomeno e ipotizzare un possibile legame funzionale. Tuttavia, in molti casi, le conoscenze acquisite sul fenomeno non consentono di ottenere esplicitamente delle funzioni o delle equazioni che correlino le diverse variabili. In questi casi, occorre raccogliere ed esaminare un numero “statisticamente significativo” di dati sperimentali in modo da ottenere una rappresentazione grafica (diagramma di dispersione) che possa suggerire quale funzione è più adatta a descrivere il fenomeno. Qui di seguito si propongono alcuni esempi in cui si evidenzia una correlazione tra dati sperimentali che si riferiscono a due caratteri rilevati su di un campione di una popolazione (campione bivariato).

Correlazione lineare e rette di regressione (segue)

Siano (x1,y1), (x2,y2),…, (xn, yn) n dati sperimentali osservati in una popolazione statistica. Se il diagramma di dispersione mostra l’esistenza di una correlazione lineare tra le variabili, è possibile misurarne “il grado” calcolando il seguente coefficiente di correlazione:

r_{xy}=\frac {\sum_{i=1}^n(x_i-\bar x)(y_i-\bar y)}{\sum_{i=1}^n(x_i-\bar x)^2 \cdot \sum_{i=1}^n(y_i-\bar y)^2}\equiv \frac{S_{xy}}{s_xs_y},

dove \bar x\bar y sono le medie campionarie delle osservazioni xi,yi, rispettivamente.

Correlazione lineare e rette di regressione (segue)

In particolare, si ha che

rxy > 0 ⇒ le variabili x e y sono correlate positivamente,

rxy < 0 ⇒ le variabili x e y sono correlate negativamente,

rxy = 0 ⇒ le variabili x e y non sono correlate.

Si osservi che nel caso di indipendenza lineare il coefficiente rxy assume valore zero, mentre non vale la conclusione opposta, ovvero da rxy =0 non si può desumere l’indipendenza lineare, cioè la condizione è necessaria ma non è sufficiente per l’indipendenza delle due variabili x e y.

Correlazione lineare e rette di regressione (segue)

Esercizio 8.1: In un foglio Excel si inseriscano i dati sperimentali riportati in Tabella 8.1.

e si disegni un diagramma di dispersione come in Figura 8.1.

Tabella 8.1

Tabella 8.1

Figura 8.1: Diagramma di dispersione.

Figura 8.1: Diagramma di dispersione.


Correlazione lineare e rette di regressione (segue)

Inoltre, si calcoli il coefficiente di correlazione che in Excel corrisponde alla funzione

CORRELAZIONE[serie1,serie2]

dove serie1 e serie2 sono le due serie di dati Peso e Altezza (cfr Figura 8.2).

Figura 8.2: Coefficiente di correlazione.

Figura 8.2: Coefficiente di correlazione.


Correlazione lineare e rette di regressione  (segue)

Per determinare la retta di regressione per i dati dell’Esercizio 8.1, si consideri nuovamente il diagramma di dispersione in Figura 8.1. Selezionandolo si scelga dal menù Grafico il comando Aggiungi linea di tendenza e si proceda scegliendo opportunamente le opzioni in modo da ottenere un grafico come in Figura 8.3.

Figura 8.3: Retta di regressione per i dati dell’Esercizio 8.1.

Figura 8.3: Retta di regressione per i dati dell'Esercizio 8.1.


Correlazione lineare e rette di regressione  (segue)

Esercizio 8.2: Utilizzando un foglio Excel, disegnare il diagramma di dispersione, calcolare il coefficiente di correlazione e individuare la retta di regressione per i dati sperimentali riportati in Tabella 8.2 riguardanti le misure del volume di una quantità di un gas a differenti temperature.

Tabella 8.2

Tabella 8.2


Curve di regressione e criterio dei minimi quadrati

Come si è visto nella Lezione 6, in molti casi i dati sperimentali non evidenziano una correlazione di tipo lineare ma presentano un andamento di tipo esponenziale, polinomiale, etc. In questi casi, anziché individuare la curva dei minimi quadrati che meglio approssimi i dati, effettuando un semplice cambiamento di variabili, è possibile ricondursi nuovamente alla ricerca della retta di regressione.
Il programma Excel automatizza questa procedura di linearizzazione e calcola direttamente la curva di regressione appartenente alla famiglia di curve scelte in input dall’utente tra quelle lineari, logaritmiche, esponenziali, potenza, etc.

…..

Esercizio 8.3: Utilizzando le funzioni di Excel, disegnare un diagramma di dispersione e determinare la curva di regressione del tipo y=CeAx che approssima i dati sperimentali riportati in Tabella 8.3.

Tabella 8.3

Tabella 8.3


Curve di regressione e criterio dei minimi quadrati (segue)

Esercizio 8.4: Utilizzando le funzioni di Excel, disegnare un diagramma di dispersione e determinare la curva di regressione del tipo y=CeAx che approssima i dati sperimentali riportati inTabella 8.4.

…..

Esercizio 8.5: Utilizzando le funzioni di Excel, disegnare un diagramma di dispersione e determinare la curva di regressione del tipo y=CxA che approssima i dati sperimentali riportati in Tabella 8.5.

Tabella 8.5

Tabella 8.5

Tabella 8.4

Tabella 8.4


Curve di regressione e criterio dei minimi quadrati (segue)

In molti casi non è semplice stabilire il modello che meglio descrive l’andamento di un fenomeno di cui si ha a disposizione solo una raccolta di dati sperimentali. Ad esempio, per i dati riportati in Tabella 8.6.

Il diagramma di dispersione in Figura 8.4 mostra solo una crescita non lineare dei dati. Tuttavia, “ad occhio” non risulta evidente se l’andamento è di tipo esponenziale o di tipo potenza.

Tabella 8.6

Tabella 8.6

Figura 8.4: Diagramma di dispersione.

Figura 8.4: Diagramma di dispersione.


Curve di regressione e criterio dei minimi quadrati (segue)

Utilizzando le funzioni di Excel per entrambe le ipotesi, si ottengono le due seguenti funzioni

y=0.363 ~e^{0.747 x}

(8.1)

y=0.562~x^{1.886}

che intepolano i dati come mostrato in Figura 8.5.

Tabella 8.7

Tabella 8.7

Figura 8.5: Diagramma di dispersione.

Figura 8.5: Diagramma di dispersione.


Curve di regressione e criterio dei minimi quadrati (segue)

Tuttavia, nelle applicazioni non è opportuno affidarsi ad una scelta che non abbia alcun fondamento scientifico. Pertanto, è necessario individuare un criterio che ci consenta di valutare esattamente quale tra le due curve interpola meglio i dati, cioè li approssimi commettendo il più piccolo errore possibile.
In questo caso il criterio in questione è fornito proprio dal metodo dei minimi quadrati. Infatti, come è noto, è possibile pervenire alle due funzioni (8.2) utilizzando il metodo di linearizzazione che in entrambi i casi conduce ad un modello lineare del tipo

Y=AX+B

con X ed Y opportune variabili.

Per il suddetto modello lineare è possibile calcolare, in ognuno dei due casi, il valore della funzione errore

E=\sum_{i=1}^n(AX_i+B-Y_i)^2~~~~~~~(8.2)

Così facendo è facile mostrare che l’errore che si commette nell’approssimare i dati mediante la funzione y1=0.363e0.747x è E1≅0.177, laddove per la funzione interpolante y2=0.562x1.886 si ottiene E2≅0.019.
A questo punto si è in possesso di un dato oggettivo che consente di affermare che il miglior modello per descrivere i dati è fornito dalla funzione potenza

y = 0.562 x 1.886

Esercizi di verifica

Esercizio 8.6: Verificare con Excel quanto appena detto a proposito dei dati sperimentali in Tabella 8.7, cioè disegnare un diagramma di dispersione, determinare le curve di regressione del tipo y=CxA e y=CeAx e infine calcolare l’errore (8.2) per entrambe.

Esercizio 8.7: Determinare le curve di regressione

y=Ce^{Ax},~~y=\frac 1 {Ax+B}

che approssimano i dati in Tabella  8.8 e stabilire a quale tra esse corrisponde il più piccolo errore possibile.

[Suggerimento: Verificare che il cambiamento di variabili X=x, Y=1/y linearizza la funzione y=1/(Ax+B). In quest'ultimo caso, costruire esplicitamente una tabella per la determinazione delle costanti A e B.]

Tabella 8.8

Tabella 8.8


Curve di regressione e criterio dei minimi quadrati

Esercizio 8.8: Individuare la trasformazione di coordinate che consente di linearizzare le funzioni come da schema in Tabella 8.9.

Tabella 8.9

Tabella 8.9


Approfondimenti

Approfondimenti sugli argomenti di questa lezione possono trovarsi nel  volume “Probabilità e statistica per l’ingegneria e le scienze” di Sheldon M. Ross.

  • Contenuti protetti da Creative Commons
  • Feed RSS
  • Condividi su FriendFeed
  • Condividi su Facebook
  • Segnala su Twitter
  • Condividi su LinkedIn
Progetto "Campus Virtuale" dell'Università degli Studi di Napoli Federico II, realizzato con il cofinanziamento dell'Unione europea. Asse V - Società dell'informazione - Obiettivo Operativo 5.1 e-Government ed e-Inclusion