In matematica, e in particolare in analisi numerica, per interpolazione (interpolazione per punti) si intende un metodo per individuare nuovi punti del piano cartesiano a partire da un insieme finito di punti conosciuti, nell’ipotesi che tutti i punti si possano riferire ad una funzione f(x) di una data famiglia di funzioni di una variabile reale.
In altre parole, si cerca una funzione che sia in grado di interpolare (cioè “di passare”) per tutti i punti disponibili in un piano cartesiano.
In statistica, il termine interpolazione assume un diverso significato.
Si parla di interpolazione statistica (o interpolazione attraverso i punti) quando si intende rappresentare in maniera sintetica una relazione funzionale tra due (o più) variabili statistiche attraverso una funzione f(x).
Questa funzione non ha l’obiettivo di passare per tutti i punti, ma di rappresentare “al meglio”, anche se in via sintetica, la relazione esistente tra i due caratteri X e Y.
Gli scopi per cui si cerca una funzione di interpolazione statistica sono:
Si parla di interpolazione statistica quando è possibile riconoscere un legame di causalità tra le due variabili statistiche considerate.
Più chiaramente, nell’interpolazione si definiscono:
Esempi:
Tra le funzioni f(x) che normalmente vengono utilizzate nell’interpolazione statistica, quella lineare gioca un ruolo di primo piano.
Infatti per la semplicità di determinazione e di interpretazione, la funzione lineare rappresenta il legame funzionale a cui normalmente si fa riferimento nella descrizione di una variabile doppia.
Si parla quindi di interpolazione statistica lineare per indicare la scelta della funzione lineare come elemento interpolante.
Nel linguaggio comune lo stesso concetto di interpolazione statistica, se non accompagnato da altro aggettivo, sottintende una interpolazione di tipo lineare.
Con l’interpolazione lineare si intende quindi descrivere, in maniera sintetica, la relazione esistente tra due caratteri statistici attraverso una retta:
f(x)=a+bX
Dato un collettivo di N unità statistiche su cui sono state osservate le variabili X e Y,
L’interpolazione consiste nella determinazione della retta che “meglio interpola in senso statistico” la nube dei punti osservati.
Il criterio adottato per determinare la migliore retta prende il nome di criterio dei minimi quadrati.
Esso perviene alla identificazione della coppia di parametri (a,b) la cui retta passa il più vicino possibile ai punti osservati.
La vicinanza è valutata come differenza tra i valori osservati della Y e i valori teorici Y* determinati con la funzione f(x).
I parametri vengono quindi determinati attraverso la minimizzazione della somma degli scarti al quadrato.
I valori (a, b), soluzione dei minimi quadrati, rappresentano i parametri della migliore retta secondo il criterio adottato.
Identificata la retta di interpolazione, è possibile scomporre la variabilità della Y in due componenti:
Attraverso la scomposizione della devianza è possibile derivare un indice per valutare la bontà della sintesi ottenuta con l’interpolazione lineare.
L’indice di bontà di adattamento R2 (o indice di determinazione lineare) è ottenuto rapportando la devianza spiegata alla devianza totale.
Elevati valori della Dev(S), e quindi di R2, indicano un buon adattamento in quanto larga parte della variabilità di Y è spiegata (linearmente) dalle variazioni della X.
Al contrario elevati valori della Dev(E), e quindi un R2 prossimo a zero, indicheranno invece una scarsa bontà di adattamento della retta alla vera relazione esistente tra i caratteri X e Y.
L’indice R2 è un numero puro che varia tra 0 e 1.
Tra l’indice di determinazione lineare R2 e il coefficiente di correlazione ρ esiste un interessante relazione:
R2 =ρ2
“l’indice di determinazione lineare è pari al quadrato del coefficiente di correlazione lineare”
Questa relazione consente di misurare la bontà di adattamento senza dover scomporre la devianza ma unicamente calcolando il coefficiente di correlazione lineare.
Il coefficiente ρ è un indice simmetrico, quindi il suo valore è costante a prescindere dal ruolo giocato da X e Y.
Viceversa, per ogni distribuzione doppia (X, Y) esistono due rette di interpolazione:
Ciò significa che invertendo il ruolo delle variabili cambieranno i valori dei parametri a e b, ma ovviamente rimarrà invariato il segno del coefficiente angolare (che è determinato dalla covarianza, cioè dalla correlazione tra X e Y)
Nella determinazione dei parametri della retta e del coefficiente di correlazione lineare è possibile utilizzare le formule abbreviate per la varianza e la covarianza.
La varianza è anche pari alla media quadratica (media delle xl al quadrato) meno la media al quadrato.
La covarianza è anche pari alla media dei prodotti meno il prodotto delle medie.
Nell’esempio precedente, i parametri della retta possono così essere interpretati:
La relazione lineare tra X e Y può essere espressa dalla funzione di sintesi Y*=-0,5320+2,3950X
b=2,3950 significa che ad un incremento unitario del fatturato (X) il numero di addetti di un’azienda cresce in media di 2,3950 unità.
a=-0, 5320 significa che per un fatturato nullo, le aziende hanno in media un numero di addetti pari a -0,5320.
Ovviamente in questo caso, dove la variabile addetti è non può assumere valori negativi, l’interpretazione dell’intercetta perde di significato.
R2= 0,712 evidenzia come il 71,2% della variabilità totale del numero di addetti (Y) sia spiegato dalle variazioni della variabile fatturato (X).
Si può concludere che vi è un buon adattamento della retta di interpolazione ai dati.
Nella prossima lezione si affronteranno i seguenti argomenti:
1. Introduzione
3. Distribuzioni di frequenza e rappresentazioni grafiche
4. Indici statistici di posizione
5. Indici statistici di variabilità
6. Forma di una distribuzione statistica
7. Distribuzioni doppie di frequenza
8. Relazioni tra variabili: Associazione e dipendenza in media
9. Relazioni tra variabili: Correlazione lineare
11. Rapporti statistici e numeri indici
12. Introduzione al calcolo delle probabilità