Obiettivi
Comprendere la specificazione di modelli lineari che impiegano variabili qualitative come predittori.
Specificazione della regressione con variabili binarie o dicotomiche (variabili dummy).
Acquisire la competenza per l’elaborazione dei dati considerando le relative condizioni di applicazione e l’interpretazione dei risultati.
Contenuti
La variabile dipendente Y può essere spiegata da variabili qualitative.
Un metodo per “quantificare” ciascuna modalità (attributo o categoria) di un predittore qualitativo è ottenuto attraverso la creazione di una variabile binaria 0-1 (detta variabile dummy) che indica la presenza o l’assenza dell’attributo in ciascuna unità statistica.
la variabile dummy può assumere valori
= 0 se l’attributo è assente
= 1 se l’attributo è presente
In generale, si supponga di voler inserire nel modello di regressione quale predittore una variabile binaria Di così definita:
Di = 1 se per l’unità i-esima l’attributo è presente
Di = 0 se per l’unità i-esima l’attributo è assente
Il modello di regressione sarà così formalizzato:
Yi = α + β Di + ui
Dove l’effetto della variabile dummy è quello di modificare il valore medio della risposta Yi ovvero l’intercetta è pari ad α (se l’evento E è assente) o ad α + β (se l’evento E è presente).
Ad esempio, supponiamo il modello
Yi = αi + α2 Di + ui
dove
Yi indica il risparmio delle famiglie
Di = 0 se la famiglia non risiede nel Nord Italia
Di = 1 se la famiglia risiede nel Nord Italia
L’obiettivo è identificare attraverso il modello di regressione se l’area di residenza influisca sui livelli medi di risparmio delle famiglie.
Poiché avviene quanto descritto:
E (Y/Di = 0) = α1con α1 che indica il risparmio medio delle famiglie
E (Y/Di = 0) = α1 + α2con α2 che indica di quanto il risparmio medio di una famiglia del Nord differisce da quello di una famiglia non residente al Nord
Un test statistico con ipotesi nulla H0 : α2 =0 permette di verificare sulla base di un test t, se la stima di α2 è statisticamente significativa, ovvero il parametro nella popolazione è diverso da zero.
Si vuole investigare se vi sono differenze nel reddito da lavoro (anno 2000) dovute alla appartenenza ad una regione settentrionale o meridionale (fonte dei dati: ISTAT).
Si costruisce una variabile dummy che vale 1 se la regione è codificata come appartenente al centro-nord, mentre vale 0 in caso contrario.
Stimiamo un modello contenente solo la costante e la variabile dummy.
Inseriamo un predittore quantitativo nell'esempio considerato in precedenza. Nel caso specifico, inseriamo il PIL regionale.
Yi = α1 + α2 Di+ βXi + ui
dove
Yi indica il risparmio della famiglia,
Di = 1 se la famiglia è residente al Nord
Di = 0 se la famiglia non è residente al Nord
Xi indica il reddito della famiglia
Inseriamo una variabile esplicativa X di natura quantitativa nel modello precedente; si tratta di verificare l’esistenza di situazioni differenziate nella relazione lineare tra X e Y, caratterizzate dalla presenza o dalla assenza di un certo attributo associato alla variabile binaria.
Assumendo che il E(ui) = 0 si deduce che il risparmio medio di una famiglia sarà definito come
E (Yi/Xi, Di = 0) = α1 + βXi per non residenti a Nord
E (Yi/Xi, Di = 0) = α1 + α2 +βXi per residenti a Nord
Il modello specifica che il risparmio medio di una famiglia residente a Nord o non a Nord ha uguale coefficiente angolare beta ma diversa intercetta alfa. La residenza a Nord o meno influenza il valore medio della variabile di risposta al netto dell’influenza di altre variabili.
Se si assume che gli effetti derivanti dal valore assunto dalla variabile dummy abbiano conseguenze sul coefficiente angolare, la variabile indicatrice va utilizzata in modo diverso, precisamente in modo moltiplicativo.
Y i = α1 + α2 Di + β1 X1 + β2 Xi Di + ui
Se Y indica il consumo, X indica il reddito e D indica un anno di guerra, l’indicazione di un anno di guerra indica come in media cambiano i consumi (intercetta) e la propensione al consumo (coefficiente angolare).
Y i = α1 + α1 Di + β1 X1 + ui con Di = 0
Y i = (α1 + α2) Di +( β1 + β2) Xi + ui con Di = 1
Variabili nel set di dati: Consumi e redditi aggregati, anni 1935 – 1954
Cons2 = consumo; Reddito;
Dummy temporale = 0 se anno di pace, 1 se anno di guerra.
Il consumo dipende positivamente dal reddito;
In tempo di guerra si abbassa, ma la propensione marginale al consumo si eleva di molto
Consumo = 15,16 + 0,76 (reddito) in tempo di pace
Consumo = 5,87 + 0,94 (reddito) in tempo di guerra
In generale, se si voglia inserire un predittore qualitativo con k attributi distinti, bisogna stare attenti ad inserire tante variabili indicatrici quante sono le modalità della variabile qualitativa meno una. Per esempio (figura a lato):
Data la presenza della costante (intercetta), si creerebbe una collinearità perfetta tra i predittori poiché la somma delle dummy diviene pari alla variabile esplicativa “costante” 1 per ogni osservazione.
Per esempio, data la variabile genere, se si inserissero 2 variabili dummy si avrebbe ((Dmaschioi + Dfemminai)) = 1 per ogni i.
Una situazione di questo tipo prende il nome di TRAPPOLA DELLE VARIABILI DUMMY.
Per ovviare a tale problema si può:
Inserire J-1 variabili dummy (se J sono le modalità della variabile qualitativa).
Esempio. Si vuole investigare il reddito di una serie di individui. Tra i predittori c’è la variabile “Massimo titolo di studio” avente le seguenti modalità:
1. nessun titolo
2. licenza elementare
3. licenza media inferiore
4. licenza media superiore
5. laurea
Si generano le seguenti (5-1) variabili dummy:
De -> 1 se l’i-mo individuo possiede la licenzza elementare, 0 altrimenti
Din -> 1 se l’i-mo individuo possiede la licenza media inferiore, 0 altrimenti
Ds -> 1 se l’i-mo individuo possiede la licenza media superiore, 0 altrimenti
Dl -> 1 se l’i-mo individuo possiede la laurea, 0 altrimenti
Il modello è il seguente:
Yi = α + β1 Dei + β2 Dini + β3 Ds i + β4 Dli+ ui
Se tutte le dummy valgono zero, l’intercetta indica il reddito di chi non possiede alcun titolo di studio.
Si possono inserire tutte le variabili dummy e stimare il modello SENZA INTERCETTA
Si generano le seguenti 5 variabili dummy:
Dn -> 1 se l’i-mo individuo non possiede titolo di studio, 0 altrimenti
De -> 1 se l’i-mo individuo possiede la licenza elementare, 0 altrimenti
Din -> 1 se l’i-mo individuo possiede la licenza media inferiore, 0 altrimenti
Ds -> 1 se l’i-mo individuo possiede la licenza media superiore, 0 altrimenti
Dl -> 1 se l’i-mo individuo possiede la laurea, 0 altrimenti
Il modello è il seguente:
Yi = β0 Dni + β1 Dei + β2Dini + β3 Dsi + β4 Dli+ ui
Variabile dipendente: Reddito.
Predittore: livello di scolarizzazione.
Si inseriscono J-1 dummy
De = Dummy lic. Elementare
Din = Dummy licenza media inferiore
Ds = Dummy licenza media superiore
Dl = Dummy laurea
1. Introduzione alla statistica per le decisioni di impresa
2. L'organizzazione dei dati statistici
3. L'analisi di regressione lineare multipla
4. I test diagnostici sulla regressione lineare multipla
5. L'uso delle variabili dicotomiche nella regressione
6. Il modello di regressione logistica
7. Modelli Additivi Generalizzati
8. Modelli lineari per l'analisi delle serie storiche
9. Modelli stocastici per l'analisi delle serie storiche
10. L'analisi delle preferenze: introduzione al Multidimensional Scaling
12. Metodi di segmentazione binaria e alberi di decisione
13. Analisi delle Componenti Principali
14. Analisi delle Corrispondenze Multiple
15. Cluster Analysis