Vai alla Home Page About me Courseware Federica Living Library Federica Federica Podstudio Virtual Campus 3D La Corte in Rete
 
Il Corso Le lezioni del Corso La Cattedra
 
Materiali di approfondimento Risorse Web Il Podcast di questa lezione

Massimo Aria » 10.Interpolazione statistica e Retta di regressione


Il concetto di interpolazione

In matematica, e in particolare in analisi numerica, per interpolazione (interpolazione per punti) si intende un metodo per individuare nuovi punti del piano cartesiano a partire da un insieme finito di punti conosciuti, nell’ipotesi che tutti i punti si possano riferire ad una funzione f(x) di una data famiglia di funzioni di una variabile reale.

In altre parole, si cerca una funzione che sia in grado di interpolare (cioè “di passare”) per tutti i punti disponibili in un piano cartesiano.

In statistica, il termine interpolazione assume un diverso significato.

Si parla di interpolazione statistica (o interpolazione attraverso i punti) quando si intende rappresentare in maniera sintetica una relazione funzionale tra due (o più) variabili statistiche attraverso una funzione f(x).

Questa funzione non ha l’obiettivo di passare per tutti i punti, ma di rappresentare “al meglio”, anche se in via sintetica, la relazione esistente tra i due caratteri X e Y.

Obiettivo dell’interpolazione

Gli scopi per cui si cerca una funzione di interpolazione statistica sono:

  • descrivere sinteticamente la relazione fra due variabili osservate
  • determinare la legge di distribuzione dei dati statistici
  • ricavare eventuali dati intermedi mancanti
  • correggere valori affetti da errori accidentali o perturbati da cause secondarie

Ruolo delle variabili

Si parla di interpolazione statistica quando è possibile riconoscere un legame di causalità tra le due variabili statistiche considerate.

Più chiaramente, nell’interpolazione si definiscono:

  • Variabile esplicativa (indicata solitamente con X) la variabile che, nel nesso logico di casualità, può essere considerata l’elemento “antecedente” della relazione.
  • Variabile dipendente (indicata solitamente con Y) La variabile che gioca invece il ruolo di “conseguente”, cioè di variabile le cui variazioni dipendono dalla variabile esplicativa.

Esempi

  • Le precipitazioni in un bacino idrogeologico (X) e il livello del fiume che lo attraversa (Y);
  • La velocità di percorrenza di un veicolo (X) e il consumo medio per percorrere un determinato tragitto (Y)
  • Il reddito di una famiglia (X) e il livello del consumo della stessa (Y)
  • ecc.

Interpolazione lineare

Tra le funzioni f(x) che normalmente vengono utilizzate nell’interpolazione statistica, quella lineare gioca un ruolo di primo piano.

Infatti per la semplicità di determinazione e di interpretazione, la funzione lineare rappresenta il legame funzionale a cui normalmente si fa riferimento nella descrizione di una variabile doppia.

Si parla quindi di interpolazione statistica lineare per indicare la scelta della funzione lineare come elemento interpolante.

Nel linguaggio comune lo stesso concetto di interpolazione statistica, se non accompagnato da altro aggettivo, sottintende una interpolazione di tipo lineare.

Funzione lineare

Con l’interpolazione lineare si intende quindi descrivere, in maniera sintetica, la relazione esistente tra due caratteri statistici attraverso una retta:

f(x)=a+bX

  • dove a rappresenta l’intercetta, cioè il valore assunto dalla funzione quando x=0. Geometricamente è il punto in cui la retta interseca l’asse delle ordinate
  • dove b è invece il coefficiente angolare, che esprime la pendenza della retta in termini di variazione della funzione dovuta ad una variazione unitaria della X

Criterio dei minimi quadrati

Dato un collettivo di N unità statistiche su cui sono state osservate le variabili X e Y, l’interpolazione consiste nella determinazione della retta che “meglio interpola in senso statistico” la nube dei punti osservati.

Il criterio adottato per determinare la migliore retta prende il nome di criterio dei minimi quadrati.

Esso perviene alla identificazione della coppia di parametri (a,b) la cui retta passa il più vicino possibile ai punti osservati.

La vicinanza è valutata come differenza tra i valori osservati della Y e i valori teorici Y* determinati con la funzione f(x).

Definizione di scarto

y^*_l=f(x_l)\longrightarrow y^*_l=a+b\cdot x_l

\text{scarto}=(y_l-y^*_l)\hspace{1cm}\text{con }l=1,2,...,N

dove

yl è il valore osservato

y*l è il valore teorico

Determinazione dei parametri della retta

I parametri vengono quindi determinati attraverso la minimizzazione della somma degli scarti al quadrato.

I valori (a, b), soluzione dei minimi quadrati, rappresentano i parametri della migliore retta secondo il criterio adottato.

Determinazione dei parametri della retta

\begin{array}\left\min_{a,b}S=\sum_{l=1}^N[y_l-y^*_l] \\ \\ \color{green}\Downarrow \\ \\ \min_{a,b}S=\sum_{l=1}N[y_l-(a+bx_l)]^2\end{array}

Risolvendo il sistema

\left\{\begin{array}{lcr}\frac{\partial S}{\partial a}=0\hspace{2cm}b=\frac{\sigma_{xy}}{\sigma_x^2}=\frac{Cod(XY)}{Dev(X)} \\\hspace{2cm} \color{green}\Longrightarrow \\ \frac{\partial S}{\partial b}=0 \hspace{2cm} a=\mu_y-b\mu_x\end{array}

Scomposizione della devianza

Identificata la retta di interpolazione, è possibile scomporre la variabilità della Y in due componenti:

Dev(S) Devianza Spiegata
E’ la somma delle differenze al quadrato tra i valori teorici della retta e la media di Y.
Essa esprime l’ammontare di variabilità della Y spiegata dalle variazioni della variabile esplicativa X.
Dev(E) Devianza Residua
È la somma degli scarti al quadrato tra i valori osservati e teorici della Y.
Essa esprime l’ammontare di variabilità residua della Y non spiegata dalle variazioni della X.
Questa è la variabilità che non dipende dal legame lineare tra i due caratteri ma da fattori diversi (errori di misurazione, altre variabili che influenzano la Y, ecc.)

Scomposizione della devianza

Dev(Y)=\sum_{l=1}^N(y_l-\mu_y)^2=

=\sum_{l=1}^N(y_l-y^*_l)^2+\sum_{l=1}^N(y^*_l-\mu_y)^2+2\left[(\sum y_l-\sum y^*_l)(\sum y^*_l-N\mu_y)\right]

dove

2\left[(\sum y_l-\sum y^*_l)(\sum y^*_l-N\mu_y)\right]=0 Il doppio prodotto quindi si dimostra essere nullo!!!

Dev(Y)=\sum_{l=1}^N(y_l-\mu_y)^2=\sum_{l=1}^2(y^*_l-\mu_y)^2+\sum_{l=1}^N(y_l-y^*_l)^2

Dev(Y) = Dev(S) \hspace{1cm}+ \hspace{1cm}Dev(E)

\begin{array}{lll}\left \text{Devianza}\hspace{1,2cm}\text{Devianza}\hspace{1,5cm}\text{Devianza} \\ \text{Totale }\hspace{0,8cm}=\hspace{0,3cm}\text{Spiegata}\hspace{0,8cm}+\hspace{0,3cm}\text{Residua}\\ \text{Dev(Y)}\hspace{1,5cm}\text{Dev(S)}\hspace{1,8cm}\text{Dev(E)}\end{array}

Bontà di adattamento

Attraverso la scomposizione della devianza è possibile derivare un indice per valutare la bontà della sintesi ottenuta con l’interpolazione lineare.

L’indice di bontà di adattamento R2 (o indice di determinazione lineare) è ottenuto rapportando la devianza spiegata alla devianza totale.

Elevati valori della Dev(S), e quindi di R2, indicano un buon adattamento in quanto larga parte della variabilità di Y è spiegata (linearmente) dalle variazioni della X.
Al contrario elevati valori della Dev(E), e quindi un R2 prossimo a zero, indicheranno invece una scarsa bontà di adattamento della retta alla vera relazione esistente tra i caratteri X e Y.

L’indice R2 è un numero puro che varia tra 0 e 1.

Bontà di adattamento

Indice di determinazione lineare

Permette di misurare la bontà di adattamento

R^2=\frac{Dev (S)}{Dev(Y)}=1-\frac{Dev(E)}{Dev(Y)}\hspace{2cm}0\leq R^2\leq 1

Indica quanta parte della devianza di Y è spiegata dalla retta di interpolazione

Dalla scomposizione di Dev(Y) si ricava che:

CASI (vedere figura)

R2 prossimo a 0 → scarso adattamento (figura in alto)

R2 prossimo a 1 → adattamento quasi perfetto (figura in basso)


Indice di determinazione lineare e correlazione

Tra l’indice di determinazione lineare R2 e il coefficiente di correlazione ρ esiste un interessante relazione:

R22

l’indice di determinazione lineare è pari al quadrato del coefficiente di correlazione lineare

Questa relazione consente di misurare la bontà di adattamento senza dover scomporre la devianza ma unicamente calcolando il coefficiente di correlazione lineare.

Interpolazione e ruolo delle variabili

Il coefficiente ρ è un indice simmetrico, quindi il suo valore è costante a prescindere dal ruolo giocato da X e Y.

Viceversa, per ogni distribuzione doppia (X, Y) esistono due rette di interpolazione:

  • la retta che spiega le variazioni di Y rispetto a X
  • la retta che spiega le variazioni di X rispetto a Y

Ciò significa che invertendo il ruolo delle variabili cambieranno i valori dei parametri a e b, ma ovviamente rimarrà invariato il segno del coefficiente angolare (che è determinato dalla covarianza, cioè dalla correlazione tra X e Y)

Alcune formule abbreviate

Nella determinazione dei parametri della retta e del coefficiente di correlazione lineare è possibile utilizzare le formule abbreviate per la varianza e la covarainza.

La varianza è anche pari alla media quadratica (media delle xl al quadrato) meno la media al quadrato.

La covarianza è anche pari alla media dei prodotti meno il prodotto delle medie.

Formule abbreviate per Varianza e Covarianza

Var(X)=\sum_{l=1}^N(x_l-\mu_x)^2=\frac 1 N\sum_{l=1}^Nx_l^2-\mu_x^2

Var(Y)=\sum_{l=1}^N(y_l-\mu_y)^2=\frac 1 N\sum_{l=1}^Ny_l^2-\mu_y^2

Cov(X,Y)=\sum_{l=1}^N(x_l-\mu_x)\cdot(y_l-\mu_y)=\frac 1 N\sum_{l=1}^Nx_l\cdot y_l - \mu_x\cdot\mu_y

Un esempio applicativo


Interpretazione dei risultati

Nell’esempio precedente, i parametri della retta possono così essere interpretati:

La relazione lineare tra X e Y può essere espressa dalla funzione di sintesi Y*=-0,5320+2,3950X

b=2,3950 significa che ad un incremento unitario del fatturato (X) il numero di addetti di un’azienda cresce in media di 2,3950 unità.

a=-0, 5320 significa che per un fatturato nullo, le aziende hanno in media un numero di addetti pari a -0,5320.
Ovviamente in questo caso, dove la variabile addetti è non può assumere valori negativi, l’interpretazione dell’intercetta perde di significato.

R2= 0,712 evidenzia come il 71,2% della variabilità totale del numero di addetti (Y) sia spiegato dalle variazioni della variabile fatturato (X).

Si può concludere che vi è un buon adattamento della retta di interpolazione ai dati.

  • Contenuti protetti da Creative Commons
  • Feed RSS
  • Condividi su FriendFeed
  • Condividi su Facebook
  • Segnala su Twitter
  • Condividi su LinkedIn
Progetto "Campus Virtuale" dell'Università degli Studi di Napoli Federico II, realizzato con il cofinanziamento dell'Unione europea. Asse V - Società dell'informazione - Obiettivo Operativo 5.1 e-Government ed e-Inclusion

Fatal error: Call to undefined function federicaDebug() in /usr/local/apache/htdocs/html/footer.php on line 93