Home

Federica EU

1/33

Roberta Siciliano » 3.L'analisi di regressione lineare multipla

Obiettivi e contenuti

Obiettivi

Comprendere la specificazione del modello di regressione lineare multipla e la valenza applicativa.
Acquisire la competenza per effettuare l’analisi di regressione lineare multipla utilizzando le procedure del Software Open source Gretl.
Comprendere i contesti applicativi aziendali, con particolare riferimento all’analisi della domanda e della pubblicità nel marketing.

Contenuti

Il modello in forma scalare
Il modello in forma matriciale
Le ipotesi
La stima del modello
La bontà di adattamento
La procedura inferenziale
La selezione delle variabili
L’ambiente operativo Gretl
Esempio
Contesti applicativi aziendali

Il modello in forma scalare

L’analisi di regressione studia come varia in media la variabile dipendente Y al variare di una o più variabili esplicative; l’i-esima osservazione Y (per i=1, …, n) è formalmente determinata dalla combinazione di una componente sistematica, espressione del valore atteso condizionato di Y dati i valori delle variabili esplicative, e di una componente stocastica, espressione degli effetti non controllati, il cosiddetto errore accidentale:

$y_i=E(Y|X={\bf x}_i)+u_i$

Nel modello di regressione lineare multipla, la variabile Y dipende linearmente in media da k-1 variabili esplicative (dette anche predittori, o regressori):
$E(Y|X={\bf x}_i)=\beta _1+\beta _2 x_{2i}+ ...+\beta _j x_{ji}+...+\beta _k x_{ki}$

Il parametro $\beta _1$ è l’intercetta che rappresenta l’effetto medio di tutte le variabili escluse dal modello qualora tutti gli altri parametri fossero uguali a zero.

Il coefficiente di regressione parziale $\beta _j$ relativo alla j-esima variabile esplicativa misura la variazione in media della variabile dipendente per una variazione unitaria della j-esima variabile esplicativa mantenendo costanti i valori delle altre variabili esplicative.

Il modello in forma matriciale

Il modello in forma matriciale si definisce nel seguente modo:

${\bf y} = {\bf X}{\bf \beta} + {\bf u}$

dove

$\bf y$ è il vettore colonna di n osservazioni della variabile Y

${\bf X}$ è la matrice n x k contenente le osservazioni delle k-1 variabili esplicative sugli n individui

${\bf \beta}$ è il vettore colonna dei k parametri del modello

${\bf u}$ è il vettore colonna di n errori

Dal momento che si assume che gli errori sono componenti stocastiche del modello, ovvero sono variabili casuali, anche le osservazioni della variabile dipendente Y sono interpretate come realizzazioni di una variabile casuale multipla.

Le ipotesi classiche del modello e l’ipotesi di normalità

Per la validità statistica del modello, occorre che siano soddisfatte le seguenti ipotesi:

Il modello è correttamente specificato, ovvero nella popolazione la variabile Y dipende linearmente in media da k-1 variabili esplicative
Non vi sono errori sistematici, ovvero il valore atteso di ciascuna delle variabili casuali “errore” è pari a zero; ciò implica che il valore atteso dalla variabile casuale Y è pari al valore atteso condizionato di Y dato X
$E({\bf u}) = {\bf 0} \Rightarrow E({\bf y}) = {\bf X}{\bf \beta}$
Omoschedasticità e non correlazione degli errori, ovvero la matrice di varianze e covarianze della variabile casuale multipla associata al vettore degli errori è pari alla varianza costante moltiplicata per la matrice Identità; ciò implica che anche la variabile casuale multipla associata alla variabile dipendente ha analoga matrice di varianze e covarianze
$\Sigma _u = \sigma ^2 {\bf I} \Rightarrow \Sigma _Y = \sigma ^2 {\bf I}$
Regressori linearmente indipendenti, ovvvero la matrice X ha rango pieno, pari a k < n; pertanto, non si può dedurre una variabile quale combinazione lineare delle altre
Regressori non stocastici, ovvero le variabili esplicative sono deterministiche, altresì sono non correlate con gli errori; inoltre, le varianze delle variabili esplicative sono contenute entro limiti accettabili
Normalità degli errori, non è indispensabile ai fini della stima dei parametri ma è necessaria per effettuare la verifica delle ipotesi sui parametri incogniti del modello. Ciò permetterà di dimostrare che gli stimatori dei coefficienti di regressione si distribuiscono secondo la normale e, pertanto, sarà possibile costruire una variabile test con distribuzione nota

La stima del modello

Il modello è stimato con il metodo dei minimi quadrati (OLS: Ordinary Least Squares):
$Q({\bf \beta }) = \left( {{\bf y} - {\bf X\beta }} \right)'\left( {{\bf y} - {\bf X\beta }} \right)$

Derivando rispetto al vettore dei parametri si ottiene la seguente stima:
${\bf \hat \beta } = \left( {{\bf X'X}} \right)^{ - 1} {\bf X'y}$

Questa rappresenta una soluzione univocamente determinata se e solo se l’inversa di ${\bf X'X}$ esiste, ossia le variabili sono linearmente indipendenti.
Ovviamente, al variare delle osservazioni campionarie variano le stime e pertanto sarà possibile definire la classe di stimatori OLS dei minimi quadrati dei parametri del modello con matrice di varianze e covarianze pari a:
$\sum\nolimits_{\bf \beta } { = {\rm }} \sigma ^2 ({\bf X'X})^{ - 1}$

Si dimostra, grazie al teorema di Gauss-Markov, che gli stimatori OLS dei coefficienti di regressione sono lineari, non distorti, a varianza minima, ovvero BLUE (Best, Linear, Unbiased Estimators).

I residui del modello: le proprietà geometriche

Il vettore dei residui è definito come differenza tra il vettore dei valori osservati ed il vettore delle stime del modello:
${\bf e} = {\bf y} - {\bf \hat y} = {\bf y} - {\bf X\hat \beta }$

Esso risulta essere una trasformazione lineare del vettore,
${\bf e} = {\bf y} - {\bf X(X'X})^{ - 1} {\bf X'y} = \left[ {{\bf I} - {\bf H}} \right]{\bf y} = {\bf My}$

ed una trasformazione lineare del vettore ${\bf u}$ ,
${\bf e} = {\bf My} = {\bf MX}{\rm }\beta + {\bf Mu} = {\bf Mu}$

Da un punto di vista geometrico il vettore dei residui è ortogonale al piano generato dalle colonne di X poiché ${\bf X'e} = {\bf 0}$ .

La stima ${\bf \hat y} = {\bf Hy}$ rappresenta la proiezione del vettore su tale piano dove l’operatore di proiezione è ${\bf H} = {\bf X(X'X})^{ - 1} {\bf X'}$ .

I residui del modello per la stima della varianza degli errori

Così come ${\bf \hat y}$ rappresenta una stima della componente sistematica del modello, il vettore dei residui ${\bf e}$ rappresenta una stima della componente erratica con media zero e matrice di varianze e covarianze piena (ovvero i residui sono autocorrelati) pari a
$\sum\nolimits_{\bf e} { = \sigma ^2 {\bf M}}$

I residui sono utilizzati per la stima corretta della varianza degli errori:
$\hat \sigma ^2 = \frac{{{\bf e'e}}}{{n - k}}$

che è usualmente impiegata nella stima della matrice di varianze e covarianze degli stimatori ${\bf \hat \beta }$ :
$S_{{\bf \hat \beta }}^2 = \hat \sigma ^2 ({\bf X}'{\bf X})^{ - 1}$

L’indice di determinazione lineare

L’indice di determinazione lineare si definisce quale rapporto di composizione tra devianza di regressione e devianza totale, misurando – nell’intervallo [0,1] – quanta parte della devianza totale è spiegata dai regressori del modello.

Se si considera la decomposizione della devianza totale SST (Sum of Squares for Total Variation) in devianza di regressione SSR (Sum of Squares due to Regression) e devianza residua SSE (Sum of Squares due to Residual), si dimostra che, al crescere del numero delle variabili esplicative, la devianza dei residui diminuisce e quindi l’indice di determinazione lineare aumenta.
Pertanto, un alto valore di R² non è un indicatore di buon adattamento in quanto esso dipende anche dal numero di regressori inclusi nel modello.
Affinché si possano confrontare due regressioni su Y con un diverso numero di regressori si dovrà considerare l’indice corretto che tiene conto dei gradi di libertà delle singole espressioni di variabilità:
$\bar R^2 = 1 - \frac{{{{SSE} \mathord{\left/ {\vphantom {{SSE} {(n - k)}}} \right. \kern-\nulldelimiterspace} {(n - k)}}}}{{{{SST} \mathord{\left/ {\vphantom {{SST} {(n - 1)}}} \right. \kern-\nulldelimiterspace} {(n - 1)}}}} = 1 - (1 - R^2 )\frac{{n - 1}}{{n - k}}$

Il calcolo dell’indice di determinazione lineare

Nell’analisi di regressione lineare multipla con due regressori, l’indice di determinazione lineare può essere espresso in funzione dei coefficienti di correlazione semplice tra le variabili: $R_{1.23}^2 = \frac{{r_{12}^2 + r_{13}^2 - 2r_{12} r_{13} r_{23} }}{{1 - r_{23}^2 }}$

da cui si evince che l’indice di determinazione lineare può solo aumentare e non diminuire con l’ingresso di un regressore nel modello.

Inoltre, esso è anche funzione delle correlazioni semplici e parziali nel seguente modo: $R_{1.23}^2 = r_{13}^2 + (1 - r_{13}^2 )r_{12.3}^2$
dove il coefficiente di correlazione parziale è pari a: $r_{12,3} = \frac{{r_{12} - r_{13} r_{23} }}{{\sqrt {(1 - r_{13}^2 )(1 - r_{23}^2 } )}}$
Che esprime la proporzione spiegata dalla variabile X₂ dopo aver rimosso l’effetto della variabile X₃. Se esiste una correlazione semplice tra Y e X₂ pari a zero cioè r₁₂=0 le due variabili potrebbero essere positivamente correlate parzialmente rispetto alla terza variabile. Cioè r_12.3>0 se r₁₃>0 e r₂₃<0 .

Si avrà che l’R² sarà maggiore del quadrato della correlazione semplice tra la Y e la X₃ fintanto il quadrato della correlazione parziale tra Y e X₂, dato X₃, sarà positivo; l’R² sarà uguale al quadrato della correlazione semplice tra la Y e la X₃ se la correlazione parziale è pari a zero.

L’inferenza sui parametri del modello

Si assume che il vettore degli errori sia una multinormale: ${\bf u} \approx N\left( {0,\sigma ^2 {\bf I}} \right)$

Da cui discende che anche gli stimatori OLS ${\bf \hat \beta }$ dei parametri del modello si distribuiscono come una multinormale:
${\bf \hat \beta }\approx N({\bf \beta },\sigma ^2 ({\bf X'X})^{ - 1} )$

Per la verifica delle ipotesi su particolari parametri della funzione di regressione multipla, oppure su combinazioni lineari tra parametri, è possibile ricorrere alla definizione di una funzione parametrica, combinazione lineare dei coefficienti di regressione:
$\theta = {\bf c'\beta }$ dove ${\bf c'}$ è un vettore riga contenente k valori costanti assegnati.

Ad esempio, definendo ${\bf c'}$ con tutti i valori pari a zero tranne per il j-esimo elemento pari a 1, la combinazione lineare $\theta = {\bf c'\beta }$ definirà il generico parametro $\beta _j$ .

Scegliendo opportunamente i valori del vettore ${\bf c'}$ , si possono formulare ipotesi su particolari combinazioni lineari dei coefficienti di regressione.

Il test statistico sulla funzione parametrica

Si supponga di voler verificare l’ipotesi nulla sulla funzione parametrica: $H_0 :\theta = \theta _0$

Lo stimatore BLUE utilizzato sarà definito come $\hat \theta \approx N(\theta ,\sigma ^2 {\bf c'}({\bf X'X})^{ - 1} {\bf c})$ dove usualmente occorre stimare la varianza degli errori con la sua stima corretta.

La variabile test $T = \frac{{\hat \theta - \theta _0 }}{{\hat \sigma _{\hat \theta } }}$ sarà distribuita come una t-Student con (n-k) gradi di libertà.

Il software open source Gretl

Gretl è un pacchetto software econometrico libero (open source) disponibile al sito Sourceforge.

L’econometria può essere definita come la metrica dell’economia, ovvero quella disciplina che, attraverso studi di carattere quantitativo, possa “avvicinare il punto di vista teorico e quello empirico nell’esplorazione dei problemi economici” (I. Fisher).

Gretl è un software completo per l’analisi di serie storiche, l’analisi di dati panel (dati che incorporano sia la dimensione temporale [serie storiche] che quella sezionale [cross-section], cioè dati che incorporano lo stesso numero di unità statistiche in momenti differenti), e per le analisi di regressione per dati cross-section (dati che incorporano una serie di unità statistiche considerate in un unico momento temporale).

Principali caratteristiche:

Interfaccia facile e intuitiva (anche italiano)
Ampia varietà di stimatori: minimi quadrati, GMM; metodi per singole equazioni e per sistemi
Metodi per serie storiche: ARMA, GARCH, VAR e VECM, test per radici unitarie e cointegrazione, ecc
Linguaggio di scripting integrato, per eseguire comandi tramite script, oltre che tramite l’interfaccia grafica

Esempio: Il consumo delle automobili

Si vuole investigare se il consumo (espresso in Km al litro) di una serie di automobili dipende da alcune caratteristiche delle stesse, come ad esempio il peso (in centinaia di Kg) e la cilindrata.

Esempio: Importazione di dati in Gretl

Dalla finestra principale di Gretl cliccare su File, poi su Apri dati, selezionare importa, ed infine cliccare su Excel. Selezionare il file da importare scegliendo l'opportuna destinazione dello stesso.

Esempio: Specificazione del modello in Gretl

Esempio: Output del modello stimato

Procedura inferenziale ANOVA: il test F totale

Si è interessati a verificare l’ipotesi nulla che tutti i coefficienti di regressione siano simultaneamente uguali a zero:
$H_0 :\beta _j = 0,{\rm }\forall {\rm j}$

contro l’ipotesi che esista almeno un regressore che abbia un effetto significativamente diverso da zero sulla variabile dipendente.

La variabile test è definita a partire dalla decomposizione ANOVA della devianza totale SST in devianza di regressione SSR e devianza residua SSE; dal rapporto tra ciascuna devianza ed i propri gradi di libertà si ottengono le espressioni delle varianze corrette MSR (Mean Square due to Regression) e MSE (Mean Square due to Residual):

$F = \frac{{{{SSR} \mathord{\left/ {\vphantom {{SSR} {(k - 1)}}} \right. \kern-\nulldelimiterspace} {(k - 1)}}}}{{{{SSE} \mathord{\left/ {\vphantom {{SSE} {(n - k)}}} \right. \kern-\nulldelimiterspace} {(n - k)}}}} = \frac{{MSR}}{{MSE}} = \frac{{{{R^2 } \mathord{\left/ {\vphantom {{R^2 } {(k - 1)}}} \right. \kern-\nulldelimiterspace} {(k - 1)}}}}{{{{(1 - R^2 )} \mathord{\left/ {\vphantom {{(1 - R^2 )} {(n - k)}}} \right. \kern-\nulldelimiterspace} {(n - k)}}}}$

che si distribuisce come una F di Snedecor – Fisher con k-1 e n-k gradi di libertà.

Esempio: ANOVA per il test F totale

Per visualizzare il test F-totale dell'ANOVA del modello su Gretl si seleziona ANOVA dal menù Analisi.

Esempio: Output dell’ANOVA sulla regressione in Gretl

Procedura inferenziale ANOVA: il test F parziale

Si può considerare una decomposizione alternativa della devianza totale che tenga conto di una suddivisione dei regressori in due gruppi, il primo formato dai primi q-1 regressori ed il secondo formato dai restanti k-q regressori:
$SST = SSR_q + SSR_{k - q} + SSE$

L’ipotesi nulla è che i coefficienti di regressione del secondo gruppo di regressori siano tutti pari a zero:
$H_0 :\beta _j = 0,{\rm per }j = q + 1,...,k$

La variabile test è:
$F = \frac{{{{SSR_{k - q} } \mathord{\left/ {\vphantom {{SSR_{k - q} } {(k - q)}}} \right. \kern-\nulldelimiterspace} {(k - q)}}}}{{{{SSE} \mathord{\left/ {\vphantom {{SSE} {(n - k)}}} \right. \kern \nulldelimiterspace} {(n - k)}}}} = \frac{{{{(R_k ^2 - R_q^2 )} \mathord{\left/ {\vphantom {{(R_k ^2 - R_q^2 )} {(k - q)}}} \right. \kern-\nulldelimiterspace} {(k - q)}}}}{{{{(1 - R_k^2 )} \mathord{\left/ {\vphantom {{(1 - R_k^2 )} {(n - k)}}} \right. \kern-\nulldelimiterspace} {(n - k)}}}}$

che si distribuisce come una Snedecor – Fisher con k-q e q-1 gradi di libertà.

Esempio: l’opzione “aggiungi variabili” alla regressione in Gretl

Dal menù Test, occorre selezionare l'opzione ADD – Aggiungi variabilli, e poi selezionare le variabili interessate, ad esempio numero e ripresa.

Esempio: Output dell’ANOVA per il test parziale

In questo caso, il test non è significativo, quindi l'ipotesi nulla di uguaglianza dei coefficienti delle variabili aggiunte non si può rifiutare.

Le procedure di selezione delle variabili

Per la scelta di quali e quante variabili inserire nel modello bisogna giungere ad un compromesso tra:
il VANTAGGIO di inserire quante più variabili possibili in modo da ridurre la componente erratica e
lo SVANTAGGIO dovuto all’aumento dei costi e della varianza delle stime.

Esistono varie procedure che permettono la risoluzione di questo problema:

La scelta a-priori effettuata dall’analista in base ad assunzioni e modelli teorici
La generazione di tutte le regressioni possibili confrontate sulla base di un indice statistico
L’applicazione di un algoritmo selettivo

Gli algoritmi selettivi

L’algoritmo Backward

Regressione completa con k-1 predittori
Test F parziale per valutare la significatività di ciascun predittore
Il predittore a cui è associato il valore più basso e non significativo del test viene rimosso; si ricalcola la regressione e si ritorna al passo 2

L’algoritmo si ferma se il valore più basso del test risulta comunque significativo e non potranno essere eliminati più predittori.

Gli algoritmi selettivi (segue)

L’algoritmo Forward

Si considera il modello senza predittori stimando solo l’intercetta (modello banale)
Si calcolano i coefficienti di correlazione semplice tra la variabile dipendente e ciascun predittore, selezionando il predittore più correlato
Il predittore selezionato entra nel modello se il valore empirico del test F parziale risulta significativo passando al punto 4, altrimenti la procedura si arresta adottando il modello in corso
Si calcolano i coefficienti di correlazione parziale tra le variabile dipendente e ciascun predittore non ancora inserito nel modello, al netto dei predittori già entrati nel modello, selezionando il predittore più correlato e ritornando al punto 3

L’algoritmo Stepwise
La regressione stepwise adotta un algoritmo analogo al forward ma rimette in discussione i predittori già inseriti in precedenza verificando la loro significatività ad ogni interazione attraverso il test F parziale. La procedura si arresta se sia il test d’ingresso che quello di rimozione risultano non significativi.

Contesti applicativi nel marketing

Analisi della domanda nel marketing

La domanda globale è il totale delle vendite realizzate da un prodotto-mercato in un determinato tempo e luogo, dall’insieme delle marche e delle imprese in concorrenza.

La domanda relativa all’impresa, o alla singola marca, è invece la quota della domanda globale che corrisponde alla quota di mercato di cui sono detentrici la marca o l’impresa nel prodotto-mercato di riferimento.

La domanda è in ogni caso una funzione di risposta, cioè il suo livello dipende dal livello di un certo numero di fattori esplicativi (detti determinanti della domanda):

Fattori ambientali socio-economici
Fattori di marketing, ovvero il totale delle azioni di marketing esercitate dalle imprese in concorrenza sul mercato, attraverso strumenti operativi, i.e., prodotto, promozione, prezzo, distribuzione etc. (fattori controllabili)
Fattori non controllabili, ovvero vincoli (i.e., clienti, concorrenza, canali di distribuzione, azienda, ambientali)

Contesti applicativi nel marketing (segue)

La valutazione si basa su due fattori: Q = n x q, dove Q indica la domanda globale in unità, n è il numero di unità di consumo, q è la quantità consumata per unità.

Il valore della domanda globale si determina come: R = n x q x p, dove R indica il volume d’affari totale e p è il prezzo medio per unità.

Metodi di previsione della domanda globale

I metodi di previsione della domanda globale si distinguono in:

Metodi euristici e di estrapolazione:

Il metodo dei rapporti a catena: utilizzo di una successione di percentuali per la scomposizione del mercato potenziale assoluto
Gli indicatori del potere e della volontà di acquisto: misurare l’attrattività di un mercato geografico basandosi sulla media ponderata tra numero di unità di consumo, il loro potere d’acquisto, la loro volontà di acquisto (indicatori statistici su base territoriale)
Analisi e scomposizione delle tendenze (attraverso i modelli lineari per l’analisi delle serie temporali): serie temporale delle vendite decomposta in componente strutturale, componente congiunturale, componente stagionale, componente mktg, componente aleatoria

Metodi di previsione della domanda globale (segue)

Modelli esplicativi

Modelli econometrici: simulare le situazioni di mercato nel quadro di scenari alternativi

Identificare una struttura casuale
Costruire uno o più scenari
Dedurre il livello della domanda in ciascuno dei casi considerati

A differenza dei criteri basati sul giudizio degli esperti, la struttura casuale è stata stabilita e convalidata sul piano sperimentale all’interno di condizioni oggettivamente osservate e misurate.

L’analisi della pubblicità

Analisi della pubblicità: funzione di risposta vendita su pubblicità

Si considera ogni sorta di azione del consumatore (acquisto, richiesta di informazioni, prove d’uso…).
La sua misurazione è l’indicatore più idoneo per la valutazione dell’efficacia della pubblicità, perché non dipende dalle dichiarazioni dei consumatori ma dalla risposta delle vendite.
Nel modello semplificato, l’azienda può controllare le vendite al tempo t in funzione delle spese per pubblicità al tempo t e di altri fattori promozionali utilizzati; la componente erratica include i fattori non controllabili dall’azienda. La stima del coefficiente di regressione associato alle spese per pubblicità esprime l’elasticità della domanda rispetto alla pubblicità.

L’analisi della pubblicità (segue)

Le vendite sono influenzate non solo dalla pubblicità corrente ma anche da quella dei periodi precedenti.
Pertanto, possono risultare utili gli strumenti di analisi delle serie storiche che tengono conto dell’effetto ritardato di alcune variabili nella spiegazione della variabile target o dipendente, ovvero le vendite. Esistono 3 modelli che analizzano l’effetto cumulato, assumendo che le vendite siano autocorrelate temporalmente:

Il modello ad effetto contemporaneo ed errore autocorrelato, ovvero l’effetto cumulativo è nullo e la pubblicità influenza solo contemporaneamente le vendite
il modello di Koyck, ovvero la pubblicità influenza infinitamente le vendite ma con effetto decrescente nel tempo
il modello ad aggiustamento parziale, ovvero le vendite sono influenzate parzialmente dalla pubblicità, i cui effetti sono distribuiti nel tempo

Il cliente produttore di soddisfazione

Le scelte del cliente si basano non tanto sul prodotto, quanto sul servizio reso possibile da esso:
Prodotti differenti possono rispondere a un medesimo bisogno
Ogni prodotto è un paniere di attributi o di caratteristiche

Uno stesso prodotto può rispondere a bisogni diversi, di qui la necessità di:
→ Segmentazione e proliferazione delle marche
→ Dilemma produttività – diversità

E’ possibile ipotizzare una funzione di utilità del consumatore da massimizzare: U = funzione (comfort, piacere, stimolo).

Con:

il vincolo monetario (somma delle spese monetarie non supera il reddito individuale)

e temporale (“costo di opzione”)

Il cliente produttore di soddisfazione (segue)

Nella specificazione del prodotto come paniere di attributi occorre distinguere:

Attributi necessari
- (modalità di produzione del servizio di base)
Attributi aggiunti
- (vantaggi non legati al servizio di base offerti in più dalla marca)

Laddove il servizio di base si associa all’utilità funzionale del tipo di prodotto, mentre i servizi supplementari sono generatori di soddisfazioni per l’acquirente.

L’analisi congiunta (o conjoint analysis) attraverso un modello composizionale multi-attributo consente di determinare qual è la combinazione preferita di attributi riferiti ad un prodotto o servizio sottoposto ad analisi, a partire dalla valutazione di una serie di proposte.