Vai alla Home Page About me Courseware Federica Living Library Federica Federica Podstudio Virtual Campus 3D Le Miniguide all'orientamento Gli eBook di Federica La Corte in Rete
 
I corsi di Economia
 
Il Corso Le lezioni del Corso La Cattedra
 
Materiali di approfondimento Risorse Web Il Podcast di questa lezione

Roberta Siciliano » 6.Il modello di regressione logistica


Obiettivi e contenuti

Obiettivi

  • Comprendere la specificazione di modelli che impiegano le variabili qualitative come variabile di risposta
  • Acquisire la competenza per l’elaborazione dei dati con i modelli sopra-menzionati, considerando le relative condizioni di applicazione e l’interpretazione dei risultati

Contenuti

  • Obiettivo e contesti applicativi della regressione logistica
  • La specificazione del modello
  • Le ipotesi
  • La stima e il test
  • La bontà di adattamento
  • Esempio

La regressione logistica

L’analisi di regressione logistica è una metodologia impiegata per prevedere il valore di una variabile dipendente dicotomica sulla base di un insieme di un insieme di variabili esplicative, sia di tipo qualitativo che quantitativo.

La variabile dipendente è a risposta qualitativa, di tipo dicotomico, e descrive l’esito o successo riguardante il verificarsi di un evento aleatorio.

A → attributo dicotomico

dove Y= 0 e Y=1

I contesti applicativi

Economia: per analizzare gli effetti degli interventi economici sugli operatori di mercato (l’azienda fallisce (Y=1) o meno (Y=0) dopo aver ricevuto una sovvenzione, il disoccupato trova lavoro (Y=1) o no (Y=0) dopo aver seguito un corso di formazione).

Marketing: per evidenziare l’incisività delle campagne pubblicitarie sulla propensione all’acquisto del consumatore (il cliente acquista (Y=1) o non acquista (Y=0) un dato prodotto in seguito ad una campagna promozionale).

Medicina: per studiare l’effetto di una cura sullo stato di salute del paziente (il paziente sottoposto ad una particolare cura farmacologica reagisce positivamente (Y=1) o meno (Y=0)).

Biologia: per evidenziare le determinanti delle reazioni delle cellule sottoposte ad un trattamento (le cellule malate si rigenerano (Y=1) oppure no (Y=0) dopo essere state sottoposte ad un particolare trattamento).

Botanica: per studiare l’effetto fertilizzante delle sostanze utilizzate sui semi oggetto di studio (una pianta resiste alle gelate (Y=1) oppure no (Y=0) in seguito ad un intervento di modificazione genetica).

Genesi del modello di regressione logistica

Si assume che ciascuna v.c. Y segua una distribuzione bernoulliana (o binomiale con n=1)con media pari alla probabilità di successo relativo al verificarsi dell’evento.
Il modello non può essere definito con l’equazione di regressione lineare in quanto il valore della Y dato il set di predittori, i.e., E(Y|X), non può assumere un qualsiasi valore da meno infinito a più infinito, bensì deve necessariamente essere pari ad un valore compreso nell’intervallo [0,1], trattandosi di una probabilità.

Si ricorre pertanto alla trasformazione logistica

\pi(x)=\frac{e^{x\beta}}{1+e^{x\beta}}=\frac 1 {1+e^{-x\beta}}

in modo da specificare il modello di regressione logistica attraverso l’equazione

y_t=E(Y_i|x_t)+\varepsilon_t=\frac{\exp(\beta_0+\beta_1x_{i1}+ ... + \beta_qx_{iq})}{1+\exp(\beta_0+\beta_1x_{i1}+ ... + \beta_qx_{iq})}+\varepsilon_t=\pi(x_t)+\varepsilon_t

La funzione LOGIT

Utilizzando la funzione logistica si dimostra che il logaritmo del rapporto tra la probabilità di successo e la probabilità di insuccesso, denominato LOGIT, è una funzione legame che lega la variabile di risposta alla combinazione lineare di predittori per i=1,2,….n in maniera tale da assicurare che, per ogni valore assunto dalle variabili esplicative, la risposta Y sia sempre compresa nell’intervallo [0,1]. In questo senso la funzione legame trasforma l’intervallo [0,1] nel dominio (-∞, +∞) (figura 3).

(figura 3)

(figura 3)


Interpretazione grafica

La scelta del logit per descrivere la relazione tra la variabile dipendente e l’insieme di variabili esplicative trova ragione nella forma assunta dalla probabilità di Y, che assomiglia ad una S allungata con limiti a zero e a uno.


Differenze tra le analisi


Interpretazione dei parametri


Odds ratio

Si definisce odds ratio (OR) (figura 4)

Se odds-ratio è uguale ad 1, gli odds-ratio dei due eventi E1 e E2 sono uguali e cioè che il numero dei prodotti con qualità non standard, per ogni prodotto con qualità standard, è lo stesso sia per A che per B.

(figura 4)

(figura 4)


Log-odds ratio

Il log-odds ratio puó essere intesa come una misura di differenza tra gli odds, e quindi come un termine di confronto tra le probabilità n1 e n2


Stima dei parametri

f(y_i|x_i;\beta)=\pi(x_1)^{y_i}[1-\pi(x_i)]^{(1-y_i)}

I parametri del modello possono essere stimati con il metodo della massima verosimiglianza, assumendo che ciascuna v.c. Y segua una distribuzione bernoulliana:

f (yi/xi; β) = ∏ (xi) yi
Si definisce la funzione di verosimiglianza

L(\beta)=\prod_{i=1}^n f(y_i|x_i)

Si massimizza la funzione di verosimiglianza o di log-verosimiglianza rispetto al vettore di parametri, utilizzando algoritmi di stima iterativa per equazioni non lineari

\hat\beta=\arg\max_\beta\{1(\beta)\}=\arg\max_\beta\{\log[L(\beta)]\}

Esempio: Challenger Space Shuttle O-Ring Data

Challenger Space Shuttle O-Ring data set, fonte UCI Machine Learning Repository.

Nel 1986 uno Space Shuttle esplose in volo durante la fase di decollo. In seguito venne accertato che una delle possibili cause del disastro fu il guasto subito da una guarnizione (O-Ring) causato dalla temperatura di esercizio del velivolo.

Vennero registrate le temperature in gradi Fahrenheit al decollo di tutti I precedenti 23 voli degli shuttle e le anomalie subite dalle guarnizioni.

Il dataset si compone delle seguenti variabili:

Temperature -> temperatura al decollo espressa in gradi Fahrenheit
Damage -> Danni subiti dalle guarnizioni (0 = nessun danno, 1 = danno)
….

Attraverso un modello di regressione logistica si vuole investigare l’effetto della temperatura del velivolo al decollo sulla probabilità che una guarnizione possa subire un danno.

Esempio: la scelta del modello in Gretl


Esempio: Selezione delle variabili in Gretl


Esempio: output del software Gretl


Esempio: approccio grafico

Il coefficiente β è negativo, quindi….. (figura a lato)

… la probabilità di successo (la guarnizione è guasta) decresce all’aumentare dei valori della X (temperatura)

(figura 8)

(figura 8)


Esempio: stima di un valore non osservato

Qual è la probabilità di rottura della guarnizione ad una temperatura di 31 gradi Fahrenheit?

P(y=1)=\frac{e^{\beta_0+\beta_1x}}{1+e^{\beta_0+\beta_1x}}<br />
=\frac{e^{15.0429-0.2332\cdot 31}}{1+e^{15.0429-0.2332\cdot31}}=0.9996

Tale probabilità è pari al 99,96%

In altre parole, exp(β) è un odds ratio, l’odds alla temperatura X diviso per l’odds alla temperatura X+1

Interpretazione dei parametri: p variabili esplicative

Modello caratterizzato dalla presenza di p variabili esplicative :

log it (∏ (x)) =β0+ β1 X1 + β2 X2 + …. + βpXp= Xβ

MODELLO SENZA INTERAZIONI
É un modello in cui le variabili esplicative impiegate sono tra loro indipendenti e di conseguenza si ha che la distribuzione di un predittore non cambia al variare dei valori assunti dagli altri predittori

MODELLO CON INTERAZIONI
Si parla di interazione quando due variabili predittive congiuntamente producono un effetto più che additivo, o meno che additivo, sulla variabile di risposta. Tale effetto moltiplicativo, che accresce o decresce gli effetti additivi dei predittori considerati singolarmente, è detto interazione.

La bontà di adattamento

L’adattamento di un modello ai dati può essere interpretato come un modo per sostituire a un insieme di valori osservati un insieme di valori stimati ottenuti da un modello che è costituito da un numero ridotto di parametri.

Si richiede che le stime del modello siano quanto più vicine ai valori osservati della variabile di risposta, cioè è necessario che la discrepanza tra questi valori sia minima.

La costruzione di indici che misurino la differenza tra i dati osservati e teorici, che forniscono così degli indicatori della bontà di adattamento del modello nel suo complesso.
La verifica della bontà del modello nel suo complesso.

La verifica della differenza tra due modelli comparabili.

La verifica della significatività di un singolo coefficiente.

La verifica della bontà del modello: la statistica D

Il primo passo è di confrontarlo con il modello saturo (o saturato), fornisce una descrizione completa dei dati e di conseguenza un adattamento perfetto.

Devianza di McCullagh e Nelder

Devianza di McCullagh e Nelder


La verifica della bontà del modello: la statistica G

La bontà di un modello effettuato non rispetto all’ottimo, ma rispetto al modello M0 (cosiddetto banale)

La statistica D pone l’attenzione unicamente sulla bontà dell’adattamento senza tener conto della parsimonia (intesa come semplicità del modello)


Confronto tra due modelli

É possibile confrontare due differenti modelli, uno dei quali formato con un sottoinsieme dei p predittori del modello considerato.

É possibile confrontare due differenti modelli, uno dei quali formato con un sottoinsieme dei p predittori del modello considerato.


Verifica della significatività delle ipotesi

Si può ricorrere alla statistica W di Wald per verificare la significatività della stima relativa al j-esimo coefficiente

Si può ricorrere alla statistica W di Wald per verificare la significatività della stima relativa al j-esimo coefficiente


Selezione delle variabili

La costruzione di un modello equilibrato passa necessariamente attraverso un processo di selezione automatico delle variabili

Obiettivo: Individuare il sottoinsieme di X ottimale secondo il criterio scelto

Metodologie:

forward

backward

stepwise

Esempio: significatività dei parametri


Esempio: significatività del modello


Esempio: intervallo di confidenza

Dalla finestra del modello selezionare analisi e cliccare su intervalli di confidenza per i coefficienti

Dalla finestra del modello selezionare analisi e cliccare su intervalli di confidenza per i coefficienti


Esempio: interpretazione dell’intervallo di confidenza

Cosa significa l’intervallo di confidenza? Proviamo a calcolarlo usando l’esponenziale:

CI = exp((-0.2322±1.96*0.1082)), -> [0.641 < exp(b) < 0.980]

L’intervallo di confidenza (per exp (β)) non contiene il valore 1, quindi l’effetto della temperatura sull’odds del danneggiamento delle guarnizioni è significativo. (è lo stesso dire che l’intervallo dei coefficienti β non contiene il valore zero)

Gli odds aumentano in maniera moltiplicativa di exp(β) per un cambiamento unitario della variabile esplicativa X


  • Contenuti protetti da Creative Commons
  • Feed RSS
  • Condividi su FriendFeed
  • Condividi su Facebook
  • Segnala su Twitter
  • Condividi su LinkedIn
Progetto "Campus Virtuale" dell'Università degli Studi di Napoli Federico II, realizzato con il cofinanziamento dell'Unione europea. Asse V - Società dell'informazione - Obiettivo Operativo 5.1 e-Government ed e-Inclusion