Obiettivi
Verificare la plausibilità delle ipotesi classiche alla base del modello di regressione lineare, attraverso i test diagnostici, o test di errata specificazione, che hanno il fine di controllare l’efficienza e la correttezza della stima OLS dei parametri del modello.
Comprendere il significato e l’utilizzo dei test diagnostici nell’ambito del modello di regressione lineare per validare la plausibilità delle ipotesi classiche del modello.
L’eventuale rifiuto dell’ipotesi nulla di un test diagnostico non ha come conseguenza il ritenere valida l’ipotesi alternativa, ma conduce solo ad un campanello d’allarme di non coerenza tra quanto ipotizzato e le osservazioni disponibili.
Contenuti
Si basano sull’analisi dei residui dei MQO e spesso si calcolano come statistiche F (confronto tra SQRv [Somma dei quadrati dei residui del modello vincolato] e SQRnv [Somma dei quadrati dei residui del modello non vincolato]).
In tali contesti il modello non vincolato prende il nome di equazione (o modello) ausiliaria.
↓↓
I test diagnostici si interpretano come problemi di variabili omesse, ovvero non corretta specificazione del modello.
y = Xβ + ε → Modello stimato (potenzialmente scorretto)
y = Xβ + Wγ + η → Modello generale (ausiliario)
dove W sono i Regressori Omessi e γ sono i Coefficienti associati ai Regressori Omessi.
Se il modello ausiliario è quello giusto (cioè se γ≠ 0), allora lo stimatore dei MQO del modello stimato è distorto.
Per verificare la significatività dei regressori W si applica un test di significatività congiunta di tutti i parametri.
Ricordiamo:
y = Xβ + ε → Modello stimato (potenzialmente scorretto) (Vincolato)
y = Xβ + Wγ + η → Modello generale (ausiliario) (Non Vincolato)
I residui del modello non vincolato sono dati dall’equazione ausiliaria
In pratica si sottopone a verifica l’ipotesi nulla: H0 : γ = 0
Problemi:
Se h > (n – k) il test non è calcolabile
Le variabili W spesso (e in pratica) non sono note a priori
Le variabili W sono considerate delle proxy, cioè variabili pensate solo allo scopo di cogliere possibili errori di specificazione
La diagnostica del modello è la seguente:
Si accetta l’ipotesi nulla in quanto il valore di probabilità è altissimo e pertanto il modello è correttamente specificato.
Il test RESET (REgression Specification Error Test) tende a verificare:
Si stima il modello con i k regressori attraverso i MQO e si aggiungono le potenze degli stessi valori stimati fino ad un generico grado p
γ = β0 + β1x1 +β2x2 +….+βkxk + γ1
Questo modello (non vincolato) rappresenta l’equazione ausiliaria.
Bisogna, pertanto, sottoporre a verifica l’ipotesi nulla:
H0 : γh = 0 per h = 1,…,(p – 1)
E’ il test più usato per verificare la presenza di autocorrelazione degli errori.
Una delle ipotesi classiche afferma che E (εiεj / X)= 0 per i≠ j
Il test DW verifica la presenza di correlazione nel termine di errore. Il caso più frequente è quello delle serie storiche, nella quale ogni unità statistica è osservata ripetutamente nel tempo e viene utilizzata la t come indice delle osservazioni. In questo caso, quando vi è una possibile correlazione tra εt e ε t-1 , si parla di autocorrelazione o di correlazione seriale.
Ma anche in dati di tipo cross-section vi può essere correlazione tra gli errori di unità contigue. Si parla, allora, di correlazione spaziale.
Esso viene applicato solo quando il modello di regressione presenta intercetta; la correlazione seriale è del primo ordine; tra i regressori non vi è la variabile risposta ritardata.
La statistica DW è la seguente:
La sommatoria al numeratore parte da 2 perché, altrimenti, non si potrebbe calcolare il residuo al tempo t-1.
Considerando che
E ricordiamo che l’omoschedasticità degli errori, da cui
Si ha
Dividendo ambo i membri per
Ricordando la statistica
Per una numerosità campionaria sufficientemente grande. le grandezza al numeratore si eguagliano, pertanto
Il test DW sottopone a verifica l’ipotesi nulla
Se ci fosse perfetta correlazione positiva, DW sarebbe pari a 0.
Se ci fosse perfetta correlazione negativa, DW sarebbe apria 4.
Se non ci fosse correlazione, DW sarebbe pari a 2.
Pertanto la distribuzione campionaria di DW tende a 2 in assenza di correlazione, mentre tende a 4 per correlazioni negative e a 0 per correlazioni positive.
Dalla finestra principale di Gretl cliccare su File, poi su Apri dati, selezionare importa, ed infine cliccare su excel. A questo punto selezionare il file da importare scegliendo l'opportuna destinazione dello stesso.
Chow test sulla stabilità dei parametri (break strutturale)
Si divide il campione in due sottocampioni, di numerosità rispettivamente n1 e n2 in modo che in entrambi possano essere applicati i MQO (i due sottocampioni devono essere in grado di essere stimati entrambi).
Si ha:
y2 = X2+ β2 + ε2
y1 = X1+ β1 + ε1
con ipotesi H0: β1 =β2
Ponendo
Le equazioni precedenti possono essere scritte come
Oppure equivalentemente
dove 0=n1×k
Ponendo
il test si esplicita nella seguente maniera
Dal momento che il vettore dei residui non vincolati è formato dai residui stimati con le prime n1 osservazioni ed anche con le seconde n2 osservazioni
La SQR non vincolata sarà uguale alla somma della SQR del modello per il primo gruppo di osservazioni e della SQR del modello per il secondo gruppo di osservazioni
La SQR del modello vincolato è data dai residui del modello completo:
La statistica F è, pertanto, la seguente
Da notre 2k al denominatore
È un test di eteroschedasticità: riguarda una ipotesi classica in particolare Var (εi /X)=σ2, i
Se c’è eteroschedasticità, la varianza condizionale degli errori è funzione di un insieme di variabili condizionanti e di un insieme di parametri:
Var (εi/ X, W) = f (W, δ)
Dal momento che Var εi = E (εi)2 si può affermare che:
E (εi2/ X, W) + ui =f (W, δ) +ui dove E (ui /X;W) =0
Il test di White utilizza il quadrato dei residui MQO come variabile dipendente, una forma lineare come funzione, e come regressori le stesse variabili, i quadrati delle stesse ed i loro prodotti incrociati:
H0 :δ =0
L’idea che sta alla base del test di White è che se E(ε2i / X) =σ2 appartiene i , allora la v.c. ε2i è incorrelata sia con X che con sue trasformazioni quali i quadrati o i prodotti incrociati.
La regressione ausiliaria, ipotizzando un modello con 2 predittori è quindi la seguente:
Il modello vincolato, come sempre, è quello con i soli predittori.
Per una numerosità sufficientemente grande, la statistica segue una distribuzione F (in questo caso) con 5 gradi di libertà al numeratore e (n-6) al denominatore.
In generale:
Il test segue una distribuzione F con
La statistica test è una F di Snedecor Fisher.
Spesso si fa ricorso a versioni semplificate del test di White.
C’è da dire, però, che mentre si possono risolvere alcuni problemi (troppi coefficienti nella regressione ausiliaria) ne possono sorgere altri (il test può segnalare la omissione di qualche quadrato).
La verifica dell’ipotesi di normalità degli errori si basa sull’analisi dei momenti terzo (asimmetria) e quarto (curtosi) dal valor medio dei residui.
Il test più frequentemente utilizzato per verificare tale ipotesi è il test di Jarque e Bera
Si distribuisce come una v.c.χ2 con 2 gradi di libertà.
Non esiste un test specifico per cogliere la presenza di multicollinearità, ma si osservano le caratteristiche dell’equazione stimata:
Un indicatore di multicollinearità spesso utilizzato nella pratica è il Variance Inflation Factor (fattore di inflazione della varianza).
Il VIF è calcolato per ciascuna variabile del modello (spesso automaticamente da diversi software statistici), in base all’espressione:
VIFj = 1/1-R2j
La varianza dell’elemento j-esimo del vettore delle stime MQO è proporzionale al VIF.
Un elevato VIF è indice di dipendenza lineare tra la colonna j-esima e le restanti colonne della matrice X, ossia è un indice di multicollinearità.
Non esiste, tuttavia, un particolare valore soglia del VIF che determina inequivocabilmente la multicollinearità.
1. Introduzione alla statistica per le decisioni di impresa
2. L'organizzazione dei dati statistici
3. L'analisi di regressione lineare multipla
4. I test diagnostici sulla regressione lineare multipla
5. L'uso delle variabili dicotomiche nella regressione
6. Il modello di regressione logistica
7. Modelli Additivi Generalizzati
8. Modelli lineari per l'analisi delle serie storiche
9. Modelli stocastici per l'analisi delle serie storiche
10. L'analisi delle preferenze: introduzione al Multidimensional Scaling
12. Metodi di segmentazione binaria e alberi di decisione
13. Analisi delle Componenti Principali
14. Analisi delle Corrispondenze Multiple
15. Cluster Analysis