Home

Federica EU

1/10

Giancarlo Ragozini » 9.La regressione multipla

La regressione multipla

I modelli di regressione multipla utilizzano due o più variabili indipendenti per prevedere il valore di una variabile dipendente, secondo il modello a lato.

Tratta da: Levine D. M., Krehbiel T. C., Berenson M. L., Statistica, Pearson Education Italia, 2010, Cap. 13, p. 3.

La regressione multipla (segue)

Dal modello ricaviamo l’equazione di regressione multipla con due variabili indipendenti dove b₀, b₁ e b₂ rappresentano i coefficienti di regressione netti, in quanto stimano la variazione media di Y per variazioni unitarie di una particolare variabile X, mantenendo costante l’effetto delle altre variabili X.

Inoltre con due variabili dipendenti e una variabile indipendente i dati sono in tre dimensioni, e possono essere rappresentati mediante un diagramma di dispersione tridimensionale.

Tratta da: Levine D. M., Krehbiel T. C., Berenson M. L., Statistica, Pearson Education Italia, 2010, Cap. 13, p.4.

Il coefficiente di determinazione R²

R² rappresenta il coefficiente di determinazione multiplo, ovvero la proporzione di variabilità della Y spiegata dall’insieme di variabili indipendenti.

Alcuni statistici suggeriscono l’utilizzo di R² corretto al fine di prendere in considerazione sia il numero di variabili indipendenti che la dimensione campionaria.

Tratta da: Levine D. M., Krehbiel T. C., Berenson M. L., Statistica, Pearson Education Italia, 2010, Capitolo 13, p. 8.

R² corretto

R² corretto aiuta a misurare l’incremento di devianza spiegata dovuto all’inserimento di una nuova variabile nel modello.

Il calcolo dell’indice R² corretto è molto importante quando si confrontano due o più modelli di regressione che predicono la stessa variabile dipendente, ma con un numero diverso di variabili indipendenti.

Tratta da: Levine D. M., Krehbiel T. C., Berenson M. L., Statistica, Pearson Education Italia, 2010, Capitolo 13, p. 9.

Verifica della bontà di adattamento

Il test F si utilizza per verificare se esiste una relazione significativa tra la variabile dipendente e l’insieme delle variabili indipendenti, ovvero l’intero modello di regressione multipla.
Poiché vi sono più variabili indipendenti si utilizza la seguente formula:

H₀: β₁ = β₂ = … β_k = 0

Ovvero non esiste una relazione lineare tra la variabile dipendente e le variabili indipendenti

H₁: almeno una β₁ ≠ 0, j = … 1, 2, …k

Esiste una relazione lineare tra la variabile dipendente e almeno una variabile indipendente.

Il test F

L’equazione definisce la statistica per il test F: (vedi figura).

La regola di decisione è:
Si rifiuta H₀ con un livello di significatività α se F _STAT > F _∞ altrimenti non si rifiuta H₀.

Tratta da: Levine D. M., Krehbiel T. C., Berenson M. L., Statistica, Pearson Education Italia, 2010, Capitolo 13, p. 10.

Analisi dei residui

Per il modello di regressione lineare multipla con due variabili indipendenti bisogna costruire e analizzare i seguenti grafici dei residui:

I residui verso Y_i
I residui verso x_1i
I residui verso x_2i
I residui verso il tempo

Se i residui di Y mostrano un andamento diverso dai valori previsti di Y, è possibile che vi sia un effetto non lineare in almeno una variabile indipendente.

Inferenza sui coefficienti di regressione

Per condurre una verifica delle ipotesi sul coefficiente di regressione della popolazione β₁ nel caso della regressione multipla usiamo l’equazione come in figura.

Tratta da: Levine D. M., Krehbiel T. C., Berenson M. L., Statistica, Pearson Education Italia, 2010, Capitolo 13, p. 15.

Le variabili dummy

In alcune situazioni si potrebbe avere il bisogno di introdurre nel modello di regressione multipla delle variabili qualitative, ovvero le cosiddette variabili dummy, variabili indipendenti qualitative.
Se la variabile indipendente qualitativa ha due categorie, allora si ha bisogno di una sola variabile dummy, X_d per rappresentare le due categorie.

Ovvero

X_d = 0 assenza della modalità della variabile qualitativa osservata;
X_d = 1 presenza della modalità della variabile qualitativa osservata.

Interazioni

L’effetto di interazione rappresenta l’insieme degli effetti delle variabili indipendenti sulla variabile dipendente in esame. Dato che non sempre è possibile analizzare gli effetti di ogni singola variabile indipendente al netto delle altre.
L’interazione può essere espressa mediante la seguente formula, dove essa è definita dal prodotto dei due effetti delle variabili indipendenti.

χ₃ = χ₁ x χ₂