Obiettivi
Comprendere la specificazione del modello di regressione lineare multipla e la valenza applicativa.
Acquisire la competenza per effettuare l’analisi di regressione lineare multipla utilizzando le procedure del Software Open source Gretl.
Comprendere i contesti applicativi aziendali, con particolare riferimento all’analisi della domanda e della pubblicità nel marketing.
Contenuti
Il modello in forma scalare
Il modello in forma matriciale
Le ipotesi
La stima del modello
La bontà di adattamento
La procedura inferenziale
La selezione delle variabili
L’ambiente operativo Gretl
Esempio
Contesti applicativi aziendali
L’analisi di regressione studia come varia in media la variabile dipendente Y al variare di una o più variabili esplicative; l’i-esima osservazione Y (per i=1, …, n) è formalmente determinata dalla combinazione di una componente sistematica, espressione del valore atteso condizionato di Y dati i valori delle variabili esplicative, e di una componente stocastica, espressione degli effetti non controllati, il cosiddetto errore accidentale:
Nel modello di regressione lineare multipla, la variabile Y dipende linearmente in media da k-1 variabili esplicative (dette anche predittori, o regressori):
Il parametro è l’intercetta che rappresenta l’effetto medio di tutte le variabili escluse dal modello qualora tutti gli altri parametri fossero uguali a zero.
Il coefficiente di regressione parziale relativo alla j-esima variabile esplicativa misura la variazione in media della variabile dipendente per una variazione unitaria della j-esima variabile esplicativa mantenendo costanti i valori delle altre variabili esplicative.
Il modello in forma matriciale si definisce nel seguente modo:
dove
è il vettore colonna di n osservazioni della variabile Y
è la matrice n x k contenente le osservazioni delle k-1 variabili esplicative sugli n individui
è il vettore colonna dei k parametri del modello
è il vettore colonna di n errori
Dal momento che si assume che gli errori sono componenti stocastiche del modello, ovvero sono variabili casuali, anche le osservazioni della variabile dipendente Y sono interpretate come realizzazioni di una variabile casuale multipla.
Per la validità statistica del modello, occorre che siano soddisfatte le seguenti ipotesi:
Il modello è stimato con il metodo dei minimi quadrati (OLS: Ordinary Least Squares):
Derivando rispetto al vettore dei parametri si ottiene la seguente stima:
Questa rappresenta una soluzione univocamente determinata se e solo se l’inversa di esiste, ossia le variabili sono linearmente indipendenti.
Ovviamente, al variare delle osservazioni campionarie variano le stime e pertanto sarà possibile definire la classe di stimatori OLS dei minimi quadrati dei parametri del modello con matrice di varianze e covarianze pari a:
Si dimostra, grazie al teorema di Gauss-Markov, che gli stimatori OLS dei coefficienti di regressione sono lineari, non distorti, a varianza minima, ovvero BLUE (Best, Linear, Unbiased Estimators).
Il vettore dei residui è definito come differenza tra il vettore dei valori osservati ed il vettore delle stime del modello:
Esso risulta essere una trasformazione lineare del vettore,
ed una trasformazione lineare del vettore ,
Da un punto di vista geometrico il vettore dei residui è ortogonale al piano generato dalle colonne di X poiché .
La stima rappresenta la proiezione del vettore su tale piano dove l’operatore di proiezione è
.
Così come rappresenta una stima della componente sistematica del modello, il vettore dei residui
rappresenta una stima della componente erratica con media zero e matrice di varianze e covarianze piena (ovvero i residui sono autocorrelati) pari a
I residui sono utilizzati per la stima corretta della varianza degli errori:
che è usualmente impiegata nella stima della matrice di varianze e covarianze degli stimatori :
L’indice di determinazione lineare si definisce quale rapporto di composizione tra devianza di regressione e devianza totale, misurando – nell’intervallo [0,1] – quanta parte della devianza totale è spiegata dai regressori del modello.
Se si considera la decomposizione della devianza totale SST (Sum of Squares for Total Variation) in devianza di regressione SSR (Sum of Squares due to Regression) e devianza residua SSE (Sum of Squares due to Residual), si dimostra che, al crescere del numero delle variabili esplicative, la devianza dei residui diminuisce e quindi l’indice di determinazione lineare aumenta.
Pertanto, un alto valore di R2 non è un indicatore di buon adattamento in quanto esso dipende anche dal numero di regressori inclusi nel modello.
Affinché si possano confrontare due regressioni su Y con un diverso numero di regressori si dovrà considerare l’indice corretto che tiene conto dei gradi di libertà delle singole espressioni di variabilità:
Nell’analisi di regressione lineare multipla con due regressori, l’indice di determinazione lineare può essere espresso in funzione dei coefficienti di correlazione semplice tra le variabili:
da cui si evince che l’indice di determinazione lineare può solo aumentare e non diminuire con l’ingresso di un regressore nel modello.
Inoltre, esso è anche funzione delle correlazioni semplici e parziali nel seguente modo:
dove il coefficiente di correlazione parziale è pari a:
Che esprime la proporzione spiegata dalla variabile X2 dopo aver rimosso l’effetto della variabile X3. Se esiste una correlazione semplice tra Y e X2 pari a zero cioè r12=0 le due variabili potrebbero essere positivamente correlate parzialmente rispetto alla terza variabile. Cioè r12.3>0 se r13>0 e r23<0 .
Si avrà che l’R2 sarà maggiore del quadrato della correlazione semplice tra la Y e la X3 fintanto il quadrato della correlazione parziale tra Y e X2, dato X3, sarà positivo; l’R2 sarà uguale al quadrato della correlazione semplice tra la Y e la X3 se la correlazione parziale è pari a zero.
Si assume che il vettore degli errori sia una multinormale:
Da cui discende che anche gli stimatori OLS dei parametri del modello si distribuiscono come una multinormale:
Per la verifica delle ipotesi su particolari parametri della funzione di regressione multipla, oppure su combinazioni lineari tra parametri, è possibile ricorrere alla definizione di una funzione parametrica, combinazione lineare dei coefficienti di regressione:
dove
è un vettore riga contenente k valori costanti assegnati.
Ad esempio, definendo con tutti i valori pari a zero tranne per il j-esimo elemento pari a 1, la combinazione lineare
definirà il generico parametro
.
Scegliendo opportunamente i valori del vettore , si possono formulare ipotesi su particolari combinazioni lineari dei coefficienti di regressione.
Si supponga di voler verificare l’ipotesi nulla sulla funzione parametrica:
Lo stimatore BLUE utilizzato sarà definito come dove usualmente occorre stimare la varianza degli errori con la sua stima corretta.
La variabile test sarà distribuita come una t-Student con (n-k) gradi di libertà.
Gretl è un pacchetto software econometrico libero (open source) disponibile al sito Sourceforge.
L’econometria può essere definita come la metrica dell’economia, ovvero quella disciplina che, attraverso studi di carattere quantitativo, possa “avvicinare il punto di vista teorico e quello empirico nell’esplorazione dei problemi economici” (I. Fisher).
Gretl è un software completo per l’analisi di serie storiche, l’analisi di dati panel (dati che incorporano sia la dimensione temporale [serie storiche] che quella sezionale [cross-section], cioè dati che incorporano lo stesso numero di unità statistiche in momenti differenti), e per le analisi di regressione per dati cross-section (dati che incorporano una serie di unità statistiche considerate in un unico momento temporale).
Principali caratteristiche:
Si vuole investigare se il consumo (espresso in Km al litro) di una serie di automobili dipende da alcune caratteristiche delle stesse, come ad esempio il peso (in centinaia di Kg) e la cilindrata.
Dalla finestra principale di Gretl cliccare su File, poi su Apri dati, selezionare importa, ed infine cliccare su Excel. Selezionare il file da importare scegliendo l'opportuna destinazione dello stesso.
Si è interessati a verificare l’ipotesi nulla che tutti i coefficienti di regressione siano simultaneamente uguali a zero:
contro l’ipotesi che esista almeno un regressore che abbia un effetto significativamente diverso da zero sulla variabile dipendente.
La variabile test è definita a partire dalla decomposizione ANOVA della devianza totale SST in devianza di regressione SSR e devianza residua SSE; dal rapporto tra ciascuna devianza ed i propri gradi di libertà si ottengono le espressioni delle varianze corrette MSR (Mean Square due to Regression) e MSE (Mean Square due to Residual):
che si distribuisce come una F di Snedecor – Fisher con k-1 e n-k gradi di libertà.
Per visualizzare il test F-totale dell'ANOVA del modello su Gretl si seleziona ANOVA dal menù Analisi.
Si può considerare una decomposizione alternativa della devianza totale che tenga conto di una suddivisione dei regressori in due gruppi, il primo formato dai primi q-1 regressori ed il secondo formato dai restanti k-q regressori:
L’ipotesi nulla è che i coefficienti di regressione del secondo gruppo di regressori siano tutti pari a zero:
La variabile test è:
che si distribuisce come una Snedecor – Fisher con k-q e q-1 gradi di libertà.
Dal menù Test, occorre selezionare l'opzione ADD – Aggiungi variabilli, e poi selezionare le variabili interessate, ad esempio numero e ripresa.
In questo caso, il test non è significativo, quindi l'ipotesi nulla di uguaglianza dei coefficienti delle variabili aggiunte non si può rifiutare.
Per la scelta di quali e quante variabili inserire nel modello bisogna giungere ad un compromesso tra:
il VANTAGGIO di inserire quante più variabili possibili in modo da ridurre la componente erratica e
lo SVANTAGGIO dovuto all’aumento dei costi e della varianza delle stime.
Esistono varie procedure che permettono la risoluzione di questo problema:
L’algoritmo Backward
L’algoritmo si ferma se il valore più basso del test risulta comunque significativo e non potranno essere eliminati più predittori.
L’algoritmo Forward
L’algoritmo Stepwise
La regressione stepwise adotta un algoritmo analogo al forward ma rimette in discussione i predittori già inseriti in precedenza verificando la loro significatività ad ogni interazione attraverso il test F parziale. La procedura si arresta se sia il test d’ingresso che quello di rimozione risultano non significativi.
Analisi della domanda nel marketing
La domanda globale è il totale delle vendite realizzate da un prodotto-mercato in un determinato tempo e luogo, dall’insieme delle marche e delle imprese in concorrenza.
La domanda relativa all’impresa, o alla singola marca, è invece la quota della domanda globale che corrisponde alla quota di mercato di cui sono detentrici la marca o l’impresa nel prodotto-mercato di riferimento.
La domanda è in ogni caso una funzione di risposta, cioè il suo livello dipende dal livello di un certo numero di fattori esplicativi (detti determinanti della domanda):
La valutazione si basa su due fattori: Q = n x q, dove Q indica la domanda globale in unità, n è il numero di unità di consumo, q è la quantità consumata per unità.
Il valore della domanda globale si determina come: R = n x q x p, dove R indica il volume d’affari totale e p è il prezzo medio per unità.
I metodi di previsione della domanda globale si distinguono in:
Metodi euristici e di estrapolazione:
Modelli esplicativi
Modelli econometrici: simulare le situazioni di mercato nel quadro di scenari alternativi
A differenza dei criteri basati sul giudizio degli esperti, la struttura casuale è stata stabilita e convalidata sul piano sperimentale all’interno di condizioni oggettivamente osservate e misurate.
Analisi della pubblicità: funzione di risposta vendita su pubblicità
Si considera ogni sorta di azione del consumatore (acquisto, richiesta di informazioni, prove d’uso…).
La sua misurazione è l’indicatore più idoneo per la valutazione dell’efficacia della pubblicità, perché non dipende dalle dichiarazioni dei consumatori ma dalla risposta delle vendite.
Nel modello semplificato, l’azienda può controllare le vendite al tempo t in funzione delle spese per pubblicità al tempo t e di altri fattori promozionali utilizzati; la componente erratica include i fattori non controllabili dall’azienda. La stima del coefficiente di regressione associato alle spese per pubblicità esprime l’elasticità della domanda rispetto alla pubblicità.
Le vendite sono influenzate non solo dalla pubblicità corrente ma anche da quella dei periodi precedenti.
Pertanto, possono risultare utili gli strumenti di analisi delle serie storiche che tengono conto dell’effetto ritardato di alcune variabili nella spiegazione della variabile target o dipendente, ovvero le vendite. Esistono 3 modelli che analizzano l’effetto cumulato, assumendo che le vendite siano autocorrelate temporalmente:
Le scelte del cliente si basano non tanto sul prodotto, quanto sul servizio reso possibile da esso:
Prodotti differenti possono rispondere a un medesimo bisogno
Ogni prodotto è un paniere di attributi o di caratteristiche
Uno stesso prodotto può rispondere a bisogni diversi, di qui la necessità di:
→ Segmentazione e proliferazione delle marche
→ Dilemma produttività – diversità
E’ possibile ipotizzare una funzione di utilità del consumatore da massimizzare: U = funzione (comfort, piacere, stimolo).
Con:
- il vincolo monetario (somma delle spese monetarie non supera il reddito individuale)
- e temporale (“costo di opzione”)
Nella specificazione del prodotto come paniere di attributi occorre distinguere:
Laddove il servizio di base si associa all’utilità funzionale del tipo di prodotto, mentre i servizi supplementari sono generatori di soddisfazioni per l’acquirente.
L’analisi congiunta (o conjoint analysis) attraverso un modello composizionale multi-attributo consente di determinare qual è la combinazione preferita di attributi riferiti ad un prodotto o servizio sottoposto ad analisi, a partire dalla valutazione di una serie di proposte.
1. Introduzione alla statistica per le decisioni di impresa
2. L'organizzazione dei dati statistici
3. L'analisi di regressione lineare multipla
4. I test diagnostici sulla regressione lineare multipla
5. L'uso delle variabili dicotomiche nella regressione
6. Il modello di regressione logistica
7. Modelli Additivi Generalizzati
8. Modelli lineari per l'analisi delle serie storiche
9. Modelli stocastici per l'analisi delle serie storiche
10. L'analisi delle preferenze: introduzione al Multidimensional Scaling
12. Metodi di segmentazione binaria e alberi di decisione
13. Analisi delle Componenti Principali
14. Analisi delle Corrispondenze Multiple
15. Cluster Analysis
Giudici, P., Data Mining, McGraw Hill.
Piccolo, D., Statistica, Il Mulino, ultima edizione.
Fabbris, L., Statistica multivariata. Analisi esplorativa dei dati, McGraw Hill.
Molteni, L., Troilo, G. (2003). Ricerche di marketing, Milano, McGraw-Hill.
Per saperne di più:
Hastie, T., Friedman J., Tibshirani, R. (2001), “Statistical Learning: Data Mining, Inference and Prediction”, Springer.
Jobson, J. D., Applied Multivariate Data Analysis, Springer Verlag, New York.
Kotler, P., Foundation of Marketing.
Kotler, P., Marketing management, 2005.