Obiettivi
Contenuti
L’analisi di regressione logistica è una metodologia impiegata per prevedere il valore di una variabile dipendente dicotomica sulla base di un insieme di un insieme di variabili esplicative, sia di tipo qualitativo che quantitativo.
La variabile dipendente è a risposta qualitativa, di tipo dicotomico, e descrive l’esito o successo riguardante il verificarsi di un evento aleatorio.
A → attributo dicotomico
dove Y= 0 e Y=1
Economia: per analizzare gli effetti degli interventi economici sugli operatori di mercato (l’azienda fallisce (Y=1) o meno (Y=0) dopo aver ricevuto una sovvenzione, il disoccupato trova lavoro (Y=1) o no (Y=0) dopo aver seguito un corso di formazione).
Marketing: per evidenziare l’incisività delle campagne pubblicitarie sulla propensione all’acquisto del consumatore (il cliente acquista (Y=1) o non acquista (Y=0) un dato prodotto in seguito ad una campagna promozionale).
Medicina: per studiare l’effetto di una cura sullo stato di salute del paziente (il paziente sottoposto ad una particolare cura farmacologica reagisce positivamente (Y=1) o meno (Y=0)).
Biologia: per evidenziare le determinanti delle reazioni delle cellule sottoposte ad un trattamento (le cellule malate si rigenerano (Y=1) oppure no (Y=0) dopo essere state sottoposte ad un particolare trattamento).
Botanica: per studiare l’effetto fertilizzante delle sostanze utilizzate sui semi oggetto di studio (una pianta resiste alle gelate (Y=1) oppure no (Y=0) in seguito ad un intervento di modificazione genetica).
Si assume che ciascuna v.c. Y segua una distribuzione bernoulliana (o binomiale con n=1)con media pari alla probabilità di successo relativo al verificarsi dell’evento.
Il modello non può essere definito con l’equazione di regressione lineare in quanto il valore della Y dato il set di predittori, i.e., E(Y|X), non può assumere un qualsiasi valore da meno infinito a più infinito, bensì deve necessariamente essere pari ad un valore compreso nell’intervallo [0,1], trattandosi di una probabilità.
Si ricorre pertanto alla trasformazione logistica
in modo da specificare il modello di regressione logistica attraverso l’equazione
Utilizzando la funzione logistica si dimostra che il logaritmo del rapporto tra la probabilità di successo e la probabilità di insuccesso, denominato LOGIT, è una funzione legame che lega la variabile di risposta alla combinazione lineare di predittori per i=1,2,….n in maniera tale da assicurare che, per ogni valore assunto dalle variabili esplicative, la risposta Y sia sempre compresa nell’intervallo [0,1]. In questo senso la funzione legame trasforma l’intervallo [0,1] nel dominio (-∞, +∞) (figura 3).
La scelta del logit per descrivere la relazione tra la variabile dipendente e l’insieme di variabili esplicative trova ragione nella forma assunta dalla probabilità di Y, che assomiglia ad una S allungata con limiti a zero e a uno.
Si definisce odds ratio (OR) (figura 4)
Se odds-ratio è uguale ad 1, gli odds-ratio dei due eventi E1 e E2 sono uguali e cioè che il numero dei prodotti con qualità non standard, per ogni prodotto con qualità standard, è lo stesso sia per A che per B.
Il log-odds ratio puó essere intesa come una misura di differenza tra gli odds, e quindi come un termine di confronto tra le probabilità n1 e n2
I parametri del modello possono essere stimati con il metodo della massima verosimiglianza, assumendo che ciascuna v.c. Y segua una distribuzione bernoulliana:
f (yi/xi; β) = ∏ (xi) yi
Si definisce la funzione di verosimiglianza
Si massimizza la funzione di verosimiglianza o di log-verosimiglianza rispetto al vettore di parametri, utilizzando algoritmi di stima iterativa per equazioni non lineari
Challenger Space Shuttle O-Ring data set, fonte UCI Machine Learning Repository.
Nel 1986 uno Space Shuttle esplose in volo durante la fase di decollo. In seguito venne accertato che una delle possibili cause del disastro fu il guasto subito da una guarnizione (O-Ring) causato dalla temperatura di esercizio del velivolo.
Vennero registrate le temperature in gradi Fahrenheit al decollo di tutti I precedenti 23 voli degli shuttle e le anomalie subite dalle guarnizioni.
Il dataset si compone delle seguenti variabili:
Temperature -> temperatura al decollo espressa in gradi Fahrenheit
Damage -> Danni subiti dalle guarnizioni (0 = nessun danno, 1 = danno)
….
Attraverso un modello di regressione logistica si vuole investigare l’effetto della temperatura del velivolo al decollo sulla probabilità che una guarnizione possa subire un danno.
Il coefficiente β è negativo, quindi….. (figura a lato)
… la probabilità di successo (la guarnizione è guasta) decresce all’aumentare dei valori della X (temperatura)
Qual è la probabilità di rottura della guarnizione ad una temperatura di 31 gradi Fahrenheit?
Tale probabilità è pari al 99,96%
In altre parole, exp(β) è un odds ratio, l’odds alla temperatura X diviso per l’odds alla temperatura X+1
Modello caratterizzato dalla presenza di p variabili esplicative :
log it (∏ (x)) =β0+ β1 X1 + β2 X2 + …. + βpXp= Xβ
MODELLO SENZA INTERAZIONI
É un modello in cui le variabili esplicative impiegate sono tra loro indipendenti e di conseguenza si ha che la distribuzione di un predittore non cambia al variare dei valori assunti dagli altri predittori
MODELLO CON INTERAZIONI
Si parla di interazione quando due variabili predittive congiuntamente producono un effetto più che additivo, o meno che additivo, sulla variabile di risposta. Tale effetto moltiplicativo, che accresce o decresce gli effetti additivi dei predittori considerati singolarmente, è detto interazione.
L’adattamento di un modello ai dati può essere interpretato come un modo per sostituire a un insieme di valori osservati un insieme di valori stimati ottenuti da un modello che è costituito da un numero ridotto di parametri.
Si richiede che le stime del modello siano quanto più vicine ai valori osservati della variabile di risposta, cioè è necessario che la discrepanza tra questi valori sia minima.
La costruzione di indici che misurino la differenza tra i dati osservati e teorici, che forniscono così degli indicatori della bontà di adattamento del modello nel suo complesso.
La verifica della bontà del modello nel suo complesso.
La verifica della differenza tra due modelli comparabili.
La verifica della significatività di un singolo coefficiente.
Il primo passo è di confrontarlo con il modello saturo (o saturato), fornisce una descrizione completa dei dati e di conseguenza un adattamento perfetto.
La bontà di un modello effettuato non rispetto all’ottimo, ma rispetto al modello M0 (cosiddetto banale)
La statistica D pone l’attenzione unicamente sulla bontà dell’adattamento senza tener conto della parsimonia (intesa come semplicità del modello)
É possibile confrontare due differenti modelli, uno dei quali formato con un sottoinsieme dei p predittori del modello considerato.
Si può ricorrere alla statistica W di Wald per verificare la significatività della stima relativa al j-esimo coefficiente
La costruzione di un modello equilibrato passa necessariamente attraverso un processo di selezione automatico delle variabili
Obiettivo: Individuare il sottoinsieme di X ottimale secondo il criterio scelto
Metodologie:
forward
backward
stepwise
Dalla finestra del modello selezionare analisi e cliccare su intervalli di confidenza per i coefficienti
Cosa significa l’intervallo di confidenza? Proviamo a calcolarlo usando l’esponenziale:
CI = exp((-0.2322±1.96*0.1082)), -> [0.641 < exp(b) < 0.980]
L’intervallo di confidenza (per exp (β)) non contiene il valore 1, quindi l’effetto della temperatura sull’odds del danneggiamento delle guarnizioni è significativo. (è lo stesso dire che l’intervallo dei coefficienti β non contiene il valore zero)
Gli odds aumentano in maniera moltiplicativa di exp(β) per un cambiamento unitario della variabile esplicativa X
1. Introduzione alla statistica per le decisioni di impresa
2. L'organizzazione dei dati statistici
3. L'analisi di regressione lineare multipla
4. I test diagnostici sulla regressione lineare multipla
5. L'uso delle variabili dicotomiche nella regressione
6. Il modello di regressione logistica
7. Modelli Additivi Generalizzati
8. Modelli lineari per l'analisi delle serie storiche
9. Modelli stocastici per l'analisi delle serie storiche
10. L'analisi delle preferenze: introduzione al Multidimensional Scaling
12. Metodi di segmentazione binaria e alberi di decisione
13. Analisi delle Componenti Principali
14. Analisi delle Corrispondenze Multiple
15. Cluster Analysis