Vai alla Home Page About me Courseware Federica Living Library Federica Federica Podstudio Virtual Campus 3D Le Miniguide all'orientamento Gli eBook di Federica La Corte in Rete
 
I corsi di Economia
 
Il Corso Le lezioni del Corso La Cattedra
 
Materiali di approfondimento Risorse Web Il Podcast di questa lezione

Roberta Siciliano » 7.Modelli Additivi Generalizzati


Obiettivi e contenuti

Obiettivi
Comprendere i principi della regressione non parametrica e semiparametrica per lo studio della relazione non lineare tra le variabili, attraverso la specificazione di funzioni di smoothing e la possibilità di esplicitare, in forma additiva, il legame (non lineare) tra la variabile dipendente e ciascun predittore.
Contenuti

  • La regressione non parametrica
  • La maledizione della dimensionalità
  • Uso delle funzioni di smoothing
  • Stima non parametrica
  • Regressione semiparametrica
  • Generalized Additive Models (GAM)
  • Algoritmi di stima

La regressione non parametrica

Si ipotizza che la relazione tra variabile dipendente e predittori sia completamente descritta da una certa funzione f(•), che può essere lineare o non lineare.
Il modello di regressione può essere scritto nel seguente modo:

E(Y |x) = f(x)

L’unico vincolo è l’utilizzo di funzioni caratterizzate da una certa regolarità (c.d. smooth functions o funzioni di smoothing) per la stima della funzione incognita f(x).

Tali modelli, in corrispondenza di diverse specificazioni della funzione di smoothing, rientrano nella classe dei modelli di regressione non parametrica.

La maledizione della dimensionalità

La precisione delle stime ottenute attraverso tali modelli è inversamente proporzionale al numero di variabili indipendenti incluse nel modello.

Questo problema è noto in letteratura come maledizione della dimensionalità (curse of dimensionality).

L’utilizzo di stimatori non parametrici, sicuramente più flessibili di quelli utilizzati
nei modelli parametrici, è solitamente accompagnato da metodi complementari orientati alla riduzione della dimensionalità. Tali metodi racchiudono spesso le principali caratteristiche delle tecniche parametriche e non parametriche, definendo modelli di regressione semiparametrica.

Genesi della stima non parametrica: il caso di due predittori

Immaginiamo, ad esempio, di volere stimare il seguente modello:

E[Y |(x1, x2)] = f(x1, x2)

ed ipotizziamo che f(•) sia una funzione caratterizzata da una certa regolarità (smooth function).

Generalmente gli stimatori utilizzati nell’ambito non parametrico producono una stima di f(•) ad un punto arbitrario (x1 = s, x2 = e) attraverso una media ponderata locale dei valori della variabile Y che si trovano in corrispondenza dei valori di x1 ed x2 situati in un certo intervallo costruito intorno al punto di coordinate (s, e).

Tale media è calcolata attribuendo peso maggiore alle osservazioni più vicine al punto (s, e) e peso minore a quelle più lontane.

Il risultato finale di un modello non parametrico caratterizzato dalla presenza di due
soli predittori è l’approssimazione di una nube di punti in uno spazio tridimensionale con una superficie. Ciò equivale, da un punto di vista probabilistico, a stimare una funzione di densità (o di probabilità) bivariata in modo non parametrico.

Un esempio Data set auto

La relazione tra variabile dipendente e due predittori può essere graficamente rappresentata da una superficie le cui dimensioni dipendono proprio dal numero di predittori inclusi nel modello.

Y= Consumo di carburante
X= Accelerazione
Z= Peso

Si stima una funzione di smoothing bivariata, che considera l’effetto di interazione tra i due predittori.

Uso delle funzioni di smoothing

Seguendo un approccio semiparametrico, è possibile riformulare il modello con due predittori nel seguente modo:

E[Y |(x1, x2)] = α + f1(x1) + f2(x2)

In questo caso f1(•) e f2(•) sono due funzioni di smoothing incognite ed  α è un parametro incognito da stimare. Questo modello combina la semplice struttura additiva dei modelli di regressione parametrica (si tratta quindi di un modello additivo) con la flessibilità che caratterizza l’approccio non parametrico, perché non impone alcuna restrizione riguardo alla forma (lineare o non lineare) delle funzioni che determinano come i predittori x1 ed x2 influenzano il valore atteso della variabile dipendente Y .

Bisogna comunque tener presente che le stime delle funzioni incognite f1(•) e f2(•) possono essere effettuate anche attraverso metodi non parametrici.

Stima non parametrica: l’istogramma e sua costruzione

L’istogramma non è solo un semplice stumento grafico che ci permette di rappresentare una distribuzione di frequenze empirica. Esso è soprattutto un utile metodo per stimare una funzione di probabilità incognita.

Si consideri una variabile casuale continua X e sia f la sua funzione di densità di probabilità. Volendo stimare il valore di f(xi) in corrispondenza di una certa realizzazione xi della v.c. X uno simatore elementare, dalla cui generalizzazione derivano tutti gli altri stimatori non parametrici, è l’istogramma.

Si immagini di avere un campione casuale X1, X2, . . . , Xn proveniente da una popolazione il cui comportamento è ben descritto da una funzione di probabilità continua incognita. La costruzione di un istogramma procede attraverso le seguenti fasi:

  • Si seleziona un punto origine x0 e si suddivide la retta reale in tanti sottointervalli Bj di uguale ampiezza (bins):

Bj : [x0 + (j − 1) h, x0 + j h), j  Z,
in cui h è l’ampiezza dell’intervallo (binwidth)

  • Si contano il numero delle osservazioni che ricadono in ciascun intervallo. Il numero di osservazioni che ricadono nell’intervallo j si indica con nj

Costruzione di un istogramma (segue)

  • Per ogni intervallo si calcola il rapporto tra il numero di casi in esso compreso (nj ) ed il prodotto tra il numero di casi osservati (n) per l’ampiezza dell’intervallo h (ci si assicura in tal modo che l’area totale al di sotto dell’istogramma sia pari ad uno):

fj = nj/n · h

  • Si disegna l’istogramma tracciando delle barre verticali in corrispondenza degli estremi di ciascun intervallo la cui altezza è pari ad fj e la cui ampiezza è pari ad h

Se indichiamo con xm il punto mediano di ciascun sottointervallo è facile notare che l’istogramma assegna ad ogni x in

Bj = [xm − h/2 , xm + h/2 ) uno stesso valore relativo alla stima di f

Il parametro h è fissato dall’analista, e quindi le stime fornite dall’istogramma dipendono dalla scelta dell’ampiezza dell’intervallo nonché dalla scelta del punto origine x0.

Qualora si incrementa il valore di h l’istogramma diviene più smussato, ma è difficile stabilire quale sia l’ampiezza dell’intervallo che in assoluto produce il grado di smussamento ottimale.

Stima non parametrica: Average Shifted Histogram (ASH)

L’obiettivo fondamentale delle tecniche non parametriche è quello di lasciare che siano gli stessi dati a descrivere determinati comportamenti.

Nel caso specifico dell’istogramma gli stessi dati possono generare istogrammi diversi al variare di h e del punto origine x0. Un rimedio naturale a questo problema può essere quello di costruire diversi istogrammi utilizzando un intervallo di ampiezza costante ma punti origine ogni volta diversi, ed effettuare successivamente una media dei diversi istogrammi ottenuti.

Tale procedura corrisponde alla costruzione di un Averaged Shifted Histogram (ASH), dando luogo generalmente ad istogrammi caratterizzati da piccoli salti della funzione di densità che farebbero pensare alla scelta di un intervallo di stima
molto piccolo.

Utilizzando diverse formulazioni per attribuire dei pesi ad una certa funzione di stima è possibile approssimare un’ampia classe di funzioni di stima, che rientrano nella classe degli stimatori kernel.

In generale, la procedura basata sull’approssimazione di una funzione di densità attraverso uno stimatore kernel è definita come Weighted Averaging of Rounded Points (WARPing).

Stima non parametrica: inconvenienti dell’istogramma

Sebbene la tecnica del WARPing risolva il problema della scelta del punto origine, l’istogramma ottenuto presenta comunque alcuni inconvenienti:
• esso produce per ogni punto x in [xm− h/2 , xm+ h/2 ) la stessa stima della funzione f. Trattasi di un’ipotesi abbastanza restrittiva
• l’istogramma non è una funzione continua, ma è una funzione a gradini (step function), caratterizzata da salti in corrispondenza degli estremi degli intervallidi stima. In tali punti la derivata della funzione di stima è pari a zero, e ciò costituisce sicuramente un inconveniente allorquando si intende stimare una funzione di probabilità incognita continua

Stima non parametrica: costruzione di uno stimatore kernel

La costruzione dell’istogramma al fine di ottenere uno stimatore della funzione di
stima f(x) incognita è basata sul seguente principio:

(1/n · h) #{osservazioni in un piccolo intervallo contenente x}

La costruzione di uno stimatore kernel è basata su un principio simile al precedente,
ma presenta il vantaggio di non risentire della scelta del punto origine.

Lo stimatore kernel è ottenuto sulla base di intervalli la cui ampiezza è solitamente
variabile. Esso è definito da:

(1/n · h) #{osservazioni in un piccolo intervallo intorno ad x}

A seconda della specificazione dell’intorno e del modo di calcolare la media dei valori della Y nell’intorno è possibile specificare smoother diversi.

Smoothing: formula generale

  • Wi(x) è una sequenza di pesi da assegnare alle yi ( nulli al di fuori di un definito intorno di x)
  • Per definire uno smoother bisogna specificare:
    • Il modo in cui costruire gli intorni, dipendente solitamente da un parametro di smoothing λ
    • Il modo in cui viene effettuata la media nell’intorno, ossia il modo in cui si scelgono i pesi Wi nella costruzione delle medie locali

Alcune caratterizzazioni della funzione di smoothing

• Lineare
• Polinomiale
Kernel
• Regressogramma
• k-Nearest Neighbour (k-NN)
• Median Smoothing
• Running Line Smoother
• Lowess (Locally weighted running line smoother)
• Spline
• Cubic Spline
• Supersmoother

Smoothing Lineare


Kernel smoother

K è una funzione kernel che permette di stimare i valori di yi assumendo che la loro distribuzione in un certo intorno di x sia nota, e corrisponda (ad esempio) ad una delle seguenti distribuzioni:

  • Uniforme continua
  • Normale
  • Triangolare
\hat f(x)=\frac{K\left(\frac{x-xi}{\lambda}\right)}{\sum_{i=1}^n K\left(\frac{x-x_i}{\lambda}\right)}y_i=\sum_{i=1}^nW_i y_i

Kernel smoother (segue)


Kernel smoother (segue)


Smoothing Spline

Si considerano funzioni polinomiali a tratti del tipo

\hat f(x)=\hat\beta_0+\hat\beta_1(x)+\hat\beta_2(x^2)+...+\hat\beta_k(x^k)

  • Le regioni su cui sono definite le spline sono individuate da una sequenza di nodi (knots)
  • In genere si utilizzano SPLINE CUBICHE, vincolate ad essere continue ed avere derivate prime e seconde continue nei nodi, in modo da assicurare una maggiore regolarità della funzione stimata

Smoothing Spline (segue)


Smoothing Spline (segue)


Lowess: smoother lineare ponderato

\hat f(x)=\hat\beta_0+\hat\beta_1(x)x

Si applica il metodo dei minimi quadrati ponderati.

W\left(\frac{|x-x_i|}{\max|x-x_i|}=u\right)

La funzione di ponderazione.

W(u)=\left\{\begin{array}{cc}(1-u^3)^3~~~0\leq u\leq 1 \\ \\ 0~~~~~~~~\text{altrove}\end{array}\right

La funzione tri-cubica.

Lowess


Supersmoother


Regressione semiparametrica

I modelli semiparametrici consentono di valutare il legame tra la variabile di risposta e ciascun predittore attraverso l’utilizzo di funzioni di smoothing arbitrarie.

Nel seguito T = (T1, . . . , Tq)’ indica un vettore di variabili esplicative categoriche, mentre X = (X1, . . . , Xp)’ indica un vettore di variabili esplicative numeriche.

Si possono distinguere i seguenti tipi di modelli semiparametrici:

  • Modelli Additivi (Additive Models, AM)
  • Modelli Parzialmente Lineari (Partially Linear Models, PLM)
  • Modelli Additivi Generalizzati (Generalized Additive Models, GAM)
  • Modelli Parzialmente Lineari Generalizzati (Generalized Partial Linear Models, GPLM)
  • Modelli Parzialmente Lineari e Parzialmente Additivi Generalizzati (Generalized Partial Linear Partial Additive Models, GPLPAM)

Modelli Additivi (Additive Models, AM)

Il modello additivo classico è una generalizzazione del modello classico di regressione lineare. In questo caso si ipotizza che il valore atteso condizionato di Y dato T è uguale alla somma di funzioni incognite delle variabili esplicative più un termine costante:

E(Y |T) = α + Σj fj (Tj)

Si ottiene una riduzione della dimensionalità del problema: invece di stimare ogni singola funzione per ogni singola variabile (come avviene nel caso della regressione non parametrica) bisogna semplicemente stimare q funzioni di un’unica variabile.

Modelli Parzialmente Lineari (Partially Linear Models, PLM)

Il modello di regressione assume la forma in figura.

E(Y |X, T) =  βT X + m (T)

in cui  m (•) è una funzione incognita multivariata del vettore T.

Quindi un modello parzialmente lineare può essere visto come la somma di una parte completamente parametrica (βT X) ed una parte completamente non parametrica m(T). La stima di β e di m(•) richiede l’utilizzo di tecniche parametriche e non parametriche.

Modelli Additivi Generalizzati (Generalized Additive Models, GAM)

I modelli additivi generalizzati sono basati sulla somma di q funzioni non parametriche relative a q variabili T (oltre al termine costante).

Inoltre, essi si basano sull’impiego di una funzione legame parametrica nota, indicata con G(•), che collega la parte additiva del modello alla variabile dipendente.

Il modello è descritto dall’equazione in figura.

E(Y |T) = G{α + Σj fj (Tj)}

I modelli additivi rappresentano un caso speciale di modello additivo generalizzato, e cioè possono essere considerati dei GAM in cui la funzione legame è rappresentata dalla funzione identità. Di conseguenza l’attenzione sarà focalizzata sui GAM e sarà trattato il caso speciale del Modello Additivo.

Modelli Parzialmente Lineari Generalizzati (Generalized Partial Linear Models, GPLM)

Tali modelli derivano da una generalizzazione della forma lineare X Tβ + TT γ ad una forma parzialmente lineare XT+m(T).

Il modello che ne risulta è il seguente:

E(Y |X,T) = G{ TT +f(X))}

in cui G è una funzione legame incognita.

In questo caso le funzioni m(•) sono funzioni multivariate non parametriche della variabile T.

Modelli Parzialmente Lineari e Parzialmente Additivi Generalizzati (Generalized Partial Linear Partial Additive Models, GPLPAM)

All’aumentare del numero dei predittori numerici, e quindi del numero delle dimensioni, per la stima della funzione non parametrica f(•) in un modello GPLM si incontra lo stesso ostacolo che si presenta nelle stime di funzioni di regressione non parametriche multidimensionali, e cioè il problema della dimensionalità e le difficoltà di interpretazione dei risultati a cui tale problema conduce.

Per tali motivi è ragionevole pensare ad una modellizzazione non parametrica in un numero minore di dimensioni della parte non parametrica di un modello. Una possibile soluzione è fornita dai modelli GPLPAM, che presentano una struttura additiva relativamente alla componente non parametrica assimilabile ad un modello additivo generalizzato.

Il modello in esame è il seguente:

E(Y |X,T) = G{TT+ f1(X1) + . . . + fp(Xp)}

In questo caso le funzioni fj(•) sono funzioni non parametriche univariate delle variabili Xj .

Algoritmi di stima

L’algoritmo di backfitting è basato su una procedura di stima iterativa dei residui parziali.

Per semplicità, si consideri un modello GAM in cui la funzione legame è la funzione identità (ovvero un modello additivo) e si supponga di avere soltanto due variabili esplicative X1 ed X2. Il modello è dato da:
Yi = β0 + f1(xi1) + f2(xi2) + εi

Si supponga inoltre di disporre della stima iniziale della funzione f2(x2) e della stima iniziale dell’intercetta del modello. Si stima la funzione f1(x1) e si determinano i residui parziali r1 quali differenza tra la variabile dipendentea e la componente stimata. Successivamente, si effettua una regressione non parametrica dei residui parziali rispetto ad X1. A tal proposito bisogna notare che i residui parziali r1 possono essere considerati come la variabilità residua di Y al netto dell’effetto della variabile X2. Quindi si stima f1(x1) effettuando un’analisi di regressione in cui si vuole stimare la variabilità della Y non spiegata da X2 (e contenuta in r1) attraverso il predittore X1. In tale contesto è possibile utilizzare anche uno degli stimatori non parametrici introdotti nei paragrafi precedenti. Sarà possibile calcolare nuovamente i residui parziali ed effettuare un’analisi di regressione dei nuovi residui parziali rispetto ad X2 per ottenere una nuova stima di f2(x2). Questa procedura iterativa può essere ripetuta fino a che le funzioni stimate per f1(x1) e f2(x2) non subiscono variazioni significative in due successive iterazioni.

Algoritmi di stima (segue)

L’algoritmo di backfitting può essere generalizzato al caso di più predittori.

L’algoritmo è illustrato nello schema a lato.

Da osservare che le stime iniziali delle funzioni f sono tutte pari a zero, mentre la stima iniziale dell’intercetta è semplicemente la media campionaria della variabile dipendente. Nello schema r = (r1, . . . , rn)T indica il vettore dei residui marginali ed S(r|xij) indica una funzione di smoothing, quale ad esempio uno stimatore kernel.


Algoritmi di stima (segue)

L’algoritmo di backfitting illustrato era relativo al caso particolare di un modello additivo generalizzato la cui funzione legame era la funzione identità. Nel caso di una funzione legame più complessa la stima del modello avviene in due fasi.
In tali casi nella procedura di stima bisogna tener conto che la variabile Y non è direttamente legata alla somma delle funzioni fj(•), j = 1, . . . , d, ma tale legame è indiretto e dipende proprio dal tipo di funzione legame utilizzata.

A tale proposito invece di utilizzare Yi nell’algoritmo di backfitting, è opportuno ricorrere ad un’opportuna trasformazione dei valori della Y , data proprio dall’inverso della funzione legame. Se si indica con z la variabile dipendente trasformata e si applica su tale variabile l’algoritmo di backfitting, considerando quindi i residui parziali rispetto a z si ottiene una stima delle funzioni fj(•), j = 1, . . . , d che descrivono l’effetto dei predittori sulla variabile trasformata z.
Ma qual è l’effetto di tali predittori sulla variabile originaria Y ? In questo caso la stima del modello avviene tramite l’algoritmo di local scoring.


Algoritmi di stima dei GAM (segue)

La procedura di stima di un modello additivo generalizzato è quindi basata su due algoritmi: l’algoritmo di backfitting e l’algoritmo di local scoring. L’algorimo di backfitting è utilizzato all’interno della procedura di local scoring. L’algoritmo di local scoring e quello di backfitting nel caso di funzione legame diversa dalla funzione identità sono descritti negli schemi seguenti, nei quali r = (r1, . . . , rn)T indica un vettore di residui (marginali) e w un vettore di pesi. S(r|w, xji) indica una funzione di smoothing.


Punti di forza e di debolezza dei modelli GAM

La caratteristica principale dei modelli additivi generalizzati è che essi permettono la stima di relazioni funzionali tra le diverse variabili.

In realtà le stime delle funzioni fj(xj) riflettono il fatto che l’influenza di un predittore dipende dal corrispondente valore assunto dalla variabile di risposta e non è necessariamente costante (come accade invece nei modelli Logit). Per tale motivo i predittori categorici possono essere facilmente inclusi nel modello, e le loro funzioni di stima saranno funzioni a gradini (step functions).

Il punto debole dei modelli GAM è che essi richiedono l’uso di procedure iterative.
Il costo computazionale di tali procedure è spesso notevole quando si opera con grandi basi di dati.

  • Contenuti protetti da Creative Commons
  • Feed RSS
  • Condividi su FriendFeed
  • Condividi su Facebook
  • Segnala su Twitter
  • Condividi su LinkedIn
Progetto "Campus Virtuale" dell'Università degli Studi di Napoli Federico II, realizzato con il cofinanziamento dell'Unione europea. Asse V - Società dell'informazione - Obiettivo Operativo 5.1 e-Government ed e-Inclusion