Com’è noto dalla Lezione 1, una fase fondamentale per la costruzione di un modello matematico consiste nell’analisi del problema reale che consente l’individuazione degli aspetti essenziali del fenomeno che si intende modellizzare. In particolare, se le ipotesi sul fenomeno e l’analisi dei dati sperimentali conducono a stabilire l’esistenza di relazioni evidenti tra le quantità che sono essenziali per la sua descrizione, allora è possibile individuare le variabili indipendenti e quelle dipendenti che intervengono nel fenomeno e ipotizzare un possibile legame funzionale. Tuttavia, in molti casi, le conoscenze acquisite sul fenomeno non consentono di ottenere esplicitamente delle funzioni o delle equazioni che correlino le diverse variabili. In questi casi, occorre raccogliere ed esaminare un numero “statisticamente significativo” di dati sperimentali in modo da ottenere una rappresentazione grafica (diagramma di dispersione) che possa suggerire quale funzione è più adatta a descrivere il fenomeno. Qui di seguito si propongono alcuni esempi in cui si evidenzia una correlazione tra dati sperimentali che si riferiscono a due caratteri rilevati su di un campione di una popolazione (campione bivariato).
Siano (x1,y1), (x2,y2),…, (xn, yn) n dati sperimentali osservati in una popolazione statistica. Se il diagramma di dispersione mostra l’esistenza di una correlazione lineare tra le variabili, è possibile misurarne “il grado” calcolando il seguente coefficiente di correlazione:
dove e sono le medie campionarie delle osservazioni xi,yi, rispettivamente.
In particolare, si ha che
rxy > 0 ⇒ le variabili x e y sono correlate positivamente,
rxy < 0 ⇒ le variabili x e y sono correlate negativamente,
rxy = 0 ⇒ le variabili x e y non sono correlate.
Si osservi che nel caso di indipendenza lineare il coefficiente rxy assume valore zero, mentre non vale la conclusione opposta, ovvero da rxy =0 non si può desumere l’indipendenza lineare, cioè la condizione è necessaria ma non è sufficiente per l’indipendenza delle due variabili x e y.
Esercizio 8.1: In un foglio Excel si inseriscano i dati sperimentali riportati in Tabella 8.1.
e si disegni un diagramma di dispersione come in Figura 8.1.
Inoltre, si calcoli il coefficiente di correlazione che in Excel corrisponde alla funzione
CORRELAZIONE[serie1,serie2]
dove serie1 e serie2 sono le due serie di dati Peso e Altezza (cfr Figura 8.2).
Per determinare la retta di regressione per i dati dell’Esercizio 8.1, si consideri nuovamente il diagramma di dispersione in Figura 8.1. Selezionandolo si scelga dal menù Grafico il comando Aggiungi linea di tendenza e si proceda scegliendo opportunamente le opzioni in modo da ottenere un grafico come in Figura 8.3.
Esercizio 8.2: Utilizzando un foglio Excel, disegnare il diagramma di dispersione, calcolare il coefficiente di correlazione e individuare la retta di regressione per i dati sperimentali riportati in Tabella 8.2 riguardanti le misure del volume di una quantità di un gas a differenti temperature.
Come si è visto nella Lezione 6, in molti casi i dati sperimentali non evidenziano una correlazione di tipo lineare ma presentano un andamento di tipo esponenziale, polinomiale, etc. In questi casi, anziché individuare la curva dei minimi quadrati che meglio approssimi i dati, effettuando un semplice cambiamento di variabili, è possibile ricondursi nuovamente alla ricerca della retta di regressione.
Il programma Excel automatizza questa procedura di linearizzazione e calcola direttamente la curva di regressione appartenente alla famiglia di curve scelte in input dall’utente tra quelle lineari, logaritmiche, esponenziali, potenza, etc.
…..
Esercizio 8.3: Utilizzando le funzioni di Excel, disegnare un diagramma di dispersione e determinare la curva di regressione del tipo y=CeAx che approssima i dati sperimentali riportati in Tabella 8.3.
Esercizio 8.4: Utilizzando le funzioni di Excel, disegnare un diagramma di dispersione e determinare la curva di regressione del tipo y=CeAx che approssima i dati sperimentali riportati inTabella 8.4.
…..
Esercizio 8.5: Utilizzando le funzioni di Excel, disegnare un diagramma di dispersione e determinare la curva di regressione del tipo y=CxA che approssima i dati sperimentali riportati in Tabella 8.5.
In molti casi non è semplice stabilire il modello che meglio descrive l’andamento di un fenomeno di cui si ha a disposizione solo una raccolta di dati sperimentali. Ad esempio, per i dati riportati in Tabella 8.6.
Il diagramma di dispersione in Figura 8.4 mostra solo una crescita non lineare dei dati. Tuttavia, “ad occhio” non risulta evidente se l’andamento è di tipo esponenziale o di tipo potenza.
Utilizzando le funzioni di Excel per entrambe le ipotesi, si ottengono le due seguenti funzioni
che intepolano i dati come mostrato in Figura 8.5.
Tuttavia, nelle applicazioni non è opportuno affidarsi ad una scelta che non abbia alcun fondamento scientifico. Pertanto, è necessario individuare un criterio che ci consenta di valutare esattamente quale tra le due curve interpola meglio i dati, cioè li approssimi commettendo il più piccolo errore possibile.
In questo caso il criterio in questione è fornito proprio dal metodo dei minimi quadrati. Infatti, come è noto, è possibile pervenire alle due funzioni (8.2) utilizzando il metodo di linearizzazione che in entrambi i casi conduce ad un modello lineare del tipo
Y=AX+B
con X ed Y opportune variabili.
Per il suddetto modello lineare è possibile calcolare, in ognuno dei due casi, il valore della funzione errore
Così facendo è facile mostrare che l’errore che si commette nell’approssimare i dati mediante la funzione y1=0.363e0.747x è E1≅0.177, laddove per la funzione interpolante y2=0.562x1.886 si ottiene E2≅0.019.
A questo punto si è in possesso di un dato oggettivo che consente di affermare che il miglior modello per descrivere i dati è fornito dalla funzione potenza
y = 0.562 x 1.886
Esercizio 8.6: Verificare con Excel quanto appena detto a proposito dei dati sperimentali in Tabella 8.7, cioè disegnare un diagramma di dispersione, determinare le curve di regressione del tipo y=CxA e y=CeAx e infine calcolare l’errore (8.2) per entrambe.
Esercizio 8.7: Determinare le curve di regressione
che approssimano i dati in Tabella 8.8 e stabilire a quale tra esse corrisponde il più piccolo errore possibile.
[Suggerimento: Verificare che il cambiamento di variabili X=x, Y=1/y linearizza la funzione y=1/(Ax+B). In quest'ultimo caso, costruire esplicitamente una tabella per la determinazione delle costanti A e B.]
Esercizio 8.8: Individuare la trasformazione di coordinate che consente di linearizzare le funzioni come da schema in Tabella 8.9.
Approfondimenti sugli argomenti di questa lezione possono trovarsi nel volume “Probabilità e statistica per l’ingegneria e le scienze” di Sheldon M. Ross.
1. Introduzione ai modelli matematici
2. Modelli matematici non lineari
3. Laboratorio 1: introduzione al foglio elettronico Excel
4. Introduzione alla statistica descrittiva
5. Laboratorio 2: la statistica descrittiva con Excel
6. Correlazione tra variabili. Metodo dei minimi quadrati
7. Correlazione non lineare tra variabili. Metodi di linearizzazione. Calcolo dell'errore
8. Laboratorio 3: correlazione tra variabili, rette e curve di regressione
9. Introduzione alle equazioni differenziali ordinarie
10. Modello di Malthus e modello logistico
11. Laboratorio 4: Modelli di Malthus e logistico
12. Modello preda-predatore di Lotka-Volterra
13. Modello di competizione interspecifica
14. Laboratorio 5: Modelli per la crescita di popolazioni conviventi: predazione e competizione
15. Modelli epidemiologici SIS e SIR
16. Laboratorio 6: Modelli SIS e SIR per la diffusione di un'epidemia