Vai alla Home Page About me Courseware Federica Living Library Federica Federica Podstudio Virtual Campus 3D La Corte in Rete
 
Il Corso Le lezioni del Corso La Cattedra
 
Materiali di approfondimento Risorse Web Il Podcast di questa lezione

Roberta Siciliano » 5.L'uso delle variabili dicotomiche nella regressione


Obiettivi e contenuti

Obiettivi

Comprendere la specificazione di modelli lineari che impiegano variabili qualitative come predittori.

Specificazione della regressione con variabili binarie o dicotomiche (variabili dummy).

Acquisire la competenza per l’elaborazione dei dati considerando le relative condizioni di applicazione e l’interpretazione dei risultati.

Contenuti

  • La specificazione del modello
  • Le ipotesi
  • La stima e il test
  • La bontà di adattamento
  • Esempi

Variabile dummy quale predittore

La variabile dipendente Y può essere spiegata da variabili qualitative.
Un metodo per “quantificare” ciascuna modalità (attributo o categoria) di un predittore qualitativo è ottenuto attraverso la creazione di una variabile binaria 0-1 (detta variabile dummy) che indica la presenza o l’assenza dell’attributo in ciascuna unità statistica.

la variabile dummy può assumere valori

= 0 se l’attributo è assente

= 1 se l’attributo è presente

La variabile dummy nella regressione

In generale, si supponga di voler inserire nel modello di regressione quale predittore una variabile binaria Di così definita:

Di = 1 se per l’unità i-esima l’attributo è presente
Di = 0 se per l’unità i-esima l’attributo è assente

Il modello di regressione sarà così formalizzato:

Yi = α + β  Di + ui

Dove l’effetto della variabile dummy è quello di modificare il valore medio della risposta Yi ovvero l’intercetta è pari ad α (se l’evento E è assente) o ad α + β (se l’evento E è presente).

Esempio di introduzione di una variabile dummy

Ad esempio, supponiamo il modello

Yi = αi + α2 Di + ui

dove

Yi indica il risparmio delle famiglie

Di = 0 se la famiglia non risiede nel Nord Italia

Di = 1 se la famiglia risiede nel Nord Italia

L’obiettivo è identificare attraverso il modello di regressione se l’area di residenza influisca sui livelli medi di risparmio delle famiglie.

Il ruolo della variabile dummy

Poiché avviene quanto descritto:

E (Y/Di = 0) = α1con α1 che indica il risparmio medio delle famiglie

E (Y/Di = 0) = α1 + α2con α2 che indica di quanto il risparmio medio di una famiglia del Nord differisce da quello di una famiglia non residente al Nord

Un test statistico con ipotesi nulla H0 : α2 =0 permette di verificare sulla base di un test t, se la stima di α2 è statisticamente significativa, ovvero il parametro nella popolazione è diverso da zero.

Esempio: analisi del reddito da lavoro

Si vuole investigare se vi sono differenze nel reddito da lavoro (anno 2000) dovute alla appartenenza ad una regione settentrionale o meridionale (fonte dei dati: ISTAT).

Si costruisce una variabile dummy che vale 1 se la regione è codificata come appartenente al centro-nord, mentre vale 0 in caso contrario.

Stimiamo un modello contenente solo la costante e la variabile dummy.

Esempio: Specificare il modello in Gretl


Esempio: interpretazione dei parametri

Inseriamo un predittore quantitativo nell’esempio considerato in precedenza. Nel caso specifico, inseriamo il PIL regionale.

Inseriamo un predittore quantitativo nell'esempio considerato in precedenza. Nel caso specifico, inseriamo il PIL regionale.


Modello di regressione con predittori misti

Yi = α1 + α2 Di+ βXi + ui

dove

Yi indica il risparmio della famiglia,

Di = 1 se la famiglia è residente al Nord

Di = 0 se la famiglia non è residente al Nord

Xi indica il reddito della famiglia

Inseriamo una variabile esplicativa X di natura quantitativa nel modello precedente; si tratta di verificare l’esistenza di situazioni differenziate nella relazione lineare tra X e Y, caratterizzate dalla presenza o dalla assenza di un certo attributo associato alla variabile binaria.

Interpretazione dei parametri nella regressione con predittori misti

Assumendo che il E(ui) = 0 si deduce che il risparmio medio di una famiglia sarà definito come

E (Yi/Xi, Di = 0) = α1 + βXi per non residenti a Nord

E (Yi/Xi, Di = 0) = α1 + α2 +βXi per residenti a Nord

Il modello specifica che il risparmio medio di una famiglia residente a Nord o non a Nord ha uguale coefficiente angolare beta ma diversa intercetta alfa. La residenza a Nord o meno influenza il valore medio della variabile di risposta al netto dell’influenza di altre variabili.

Esempio: variabile dummy e predittore quantitativo


Esempio: interpretazione grafica dei parametri


Effetto moltiplicativo delle variabili dummy

Se si assume che gli effetti derivanti dal valore assunto dalla variabile dummy abbiano conseguenze sul coefficiente angolare, la variabile indicatrice va utilizzata in modo diverso, precisamente in modo moltiplicativo.

Y i = α1 + α2 Di + β1 X1 + β2 Xi Di + ui

Se Y indica il consumo, X indica il reddito e D indica un anno di guerra, l’indicazione di un anno di guerra indica come in media cambiano i consumi (intercetta) e la propensione al consumo (coefficiente angolare).

Y i = α1 + α1 Di + β1 X1 + ui con Di = 0

Y i = (α1 + α2) Di +( β1 + β2) Xi + ui con  Di = 1

Esempio: l’interpretazione dell’effetto moltiplicativo

Variabili nel set di dati: Consumi e redditi aggregati, anni 1935 – 1954
Cons2 = consumo; Reddito;
Dummy temporale = 0 se anno di pace, 1 se anno di guerra.


Esempio: output di gretl

Il consumo dipende positivamente dal reddito;
In tempo di guerra si abbassa, ma la propensione marginale al consumo si eleva di molto

Consumo = 15,16 + 0,76 (reddito) in tempo di pace

Consumo = 5,87 + 0,94 (reddito) in tempo di guerra


Esempio: interpretazione grafica dell’effetto moltiplicativo


La trappola delle variabili dummy

In generale, se si voglia inserire un predittore qualitativo con k attributi distinti, bisogna stare attenti ad inserire tante variabili indicatrici quante sono le modalità della variabile qualitativa meno una. Per esempio (figura a lato):

Data la presenza della costante (intercetta), si creerebbe una collinearità perfetta tra i predittori poiché la somma delle dummy diviene pari alla variabile esplicativa “costante” 1 per ogni osservazione.
Per esempio, data la variabile genere, se si inserissero 2 variabili dummy si avrebbe ((Dmaschioi + Dfemminai)) = 1 per ogni i.

Una situazione di questo tipo prende il nome di TRAPPOLA DELLE VARIABILI DUMMY.


La trappola delle variabili dummy: modalità di azione

Per ovviare a tale problema si può:
Inserire J-1 variabili dummy (se J sono le modalità della variabile qualitativa).

Esempio. Si vuole investigare il reddito di una serie di individui. Tra i predittori c’è la variabile “Massimo titolo di studio” avente le seguenti modalità:
1. nessun titolo
2. licenza elementare
3. licenza media inferiore
4. licenza media superiore
5. laurea

Si generano le seguenti (5-1) variabili dummy:

De -> 1 se l’i-mo individuo possiede la licenzza elementare, 0 altrimenti
Din -> 1 se l’i-mo individuo possiede la licenza media inferiore, 0 altrimenti
Ds -> 1 se l’i-mo individuo possiede la licenza media superiore, 0 altrimenti
Dl -> 1 se l’i-mo individuo possiede la laurea, 0 altrimenti

Il modello è il seguente:

Yi = α + β1 Dei + β2 Dini + β3 Ds i + β4 Dli+ ui

Se tutte le dummy valgono zero, l’intercetta indica il reddito di chi non possiede alcun titolo di studio.

La trappola delle variabili dummy: modello senza intercetta

Si possono inserire tutte le variabili dummy e stimare il modello SENZA INTERCETTA

Si generano le seguenti 5 variabili dummy:

Dn -> 1 se l’i-mo individuo non possiede titolo di studio, 0 altrimenti
De -> 1 se l’i-mo individuo possiede la licenza elementare, 0 altrimenti
Din -> 1 se l’i-mo individuo possiede la licenza media inferiore, 0 altrimenti
Ds -> 1 se l’i-mo individuo possiede la licenza media superiore, 0 altrimenti
Dl -> 1 se l’i-mo individuo possiede la laurea, 0 altrimenti

Il modello è il seguente:

Yi =  β0 Dni + β1 Dei + β2Dini + β3 Dsi + β4 Dli+ ui

Utilizzo di più variabili dummy: modello con intercetta

Variabile dipendente: Reddito.
Predittore: livello di scolarizzazione.

Si inseriscono J-1 dummy
De = Dummy lic. Elementare
Din = Dummy licenza media inferiore
Ds = Dummy licenza media superiore
Dl = Dummy laurea


Utilizzo di più variabili dummy: modello senza intercetta


Differenza tra il modello con e senza intercetta

Confronto tra gli output dei due modelli precedenti.

Confronto tra gli output dei due modelli precedenti.


Se dimentichiamo qualcosa ….

Supponiamo per errore di inserire tutte le variabili dummy e di stimare il modello con l’intercetta; generalmente i software eliminano una delle variabili indicatrici e comunicano tale evento nell’output (figura a lato):

Il modello è esattamente uguale ai precedenti.


  • Contenuti protetti da Creative Commons
  • Feed RSS
  • Condividi su FriendFeed
  • Condividi su Facebook
  • Segnala su Twitter
  • Condividi su LinkedIn
Progetto "Campus Virtuale" dell'Università degli Studi di Napoli Federico II, realizzato con il cofinanziamento dell'Unione europea. Asse V - Società dell'informazione - Obiettivo Operativo 5.1 e-Government ed e-Inclusion

Fatal error: Call to undefined function federicaDebug() in /usr/local/apache/htdocs/html/footer.php on line 93