I modelli di regressione multipla utilizzano due o più variabili indipendenti per prevedere il valore di una variabile dipendente, secondo il modello a lato.
Dal modello ricaviamo l’equazione di regressione multipla con due variabili indipendenti dove b0, b1 e b2 rappresentano i coefficienti di regressione netti, in quanto stimano la variazione media di Y per variazioni unitarie di una particolare variabile X, mantenendo costante l’effetto delle altre variabili X.
Inoltre con due variabili dipendenti e una variabile indipendente i dati sono in tre dimensioni, e possono essere rappresentati mediante un diagramma di dispersione tridimensionale.
R2 rappresenta il coefficiente di determinazione multiplo, ovvero la proporzione di variabilità della Y spiegata dall’insieme di variabili indipendenti.
Alcuni statistici suggeriscono l’utilizzo di R2 corretto al fine di prendere in considerazione sia il numero di variabili indipendenti che la dimensione campionaria.
R2 corretto aiuta a misurare l’incremento di devianza spiegata dovuto all’inserimento di una nuova variabile nel modello.
Il calcolo dell’indice R2 corretto è molto importante quando si confrontano due o più modelli di regressione che predicono la stessa variabile dipendente, ma con un numero diverso di variabili indipendenti.
Il test F si utilizza per verificare se esiste una relazione significativa tra la variabile dipendente e l’insieme delle variabili indipendenti, ovvero l’intero modello di regressione multipla.
Poiché vi sono più variabili indipendenti si utilizza la seguente formula:
H0: β1 = β2 = … βk = 0
Ovvero non esiste una relazione lineare tra la variabile dipendente e le variabili indipendenti
H1: almeno una β1 ≠ 0, j = … 1, 2, …k
Esiste una relazione lineare tra la variabile dipendente e almeno una variabile indipendente.
L’equazione definisce la statistica per il test F: (vedi figura).
La regola di decisione è:
Si rifiuta H0 con un livello di significatività α se F STAT > F ∞ altrimenti non si rifiuta H0.
Per il modello di regressione lineare multipla con due variabili indipendenti bisogna costruire e analizzare i seguenti grafici dei residui:
Se i residui di Y mostrano un andamento diverso dai valori previsti di Y, è possibile che vi sia un effetto non lineare in almeno una variabile indipendente.
Per condurre una verifica delle ipotesi sul coefficiente di regressione della popolazione β1 nel caso della regressione multipla usiamo l’equazione come in figura.
In alcune situazioni si potrebbe avere il bisogno di introdurre nel modello di regressione multipla delle variabili qualitative, ovvero le cosiddette variabili dummy, variabili indipendenti qualitative.
Se la variabile indipendente qualitativa ha due categorie, allora si ha bisogno di una sola variabile dummy, Xd per rappresentare le due categorie.
Ovvero
Xd = 0 assenza della modalità della variabile qualitativa osservata;
Xd = 1 presenza della modalità della variabile qualitativa osservata.
L’effetto di interazione rappresenta l’insieme degli effetti delle variabili indipendenti sulla variabile dipendente in esame. Dato che non sempre è possibile analizzare gli effetti di ogni singola variabile indipendente al netto delle altre.
L’interazione può essere espressa mediante la seguente formula, dove essa è definita dal prodotto dei due effetti delle variabili indipendenti.
χ3 = χ1 x χ2
1. Introduzione al corso - qualità e servizi
2. I sistemi di gestione della qualità
3. Le caratteristiche della Qualità e le sue dimensioni
4. Gli approcci alla valutazione della qualità
5. La valutazione della qualità
6. Approcci di valutazione della qualità e gli indicatori metrici di performance
7. Il modello input-output e il concetto di outcome
8. I Sistemi di Indicatori nella scuola
10. Il controllo statistico di qualità
11. La stakeholder satisfaction. Metodi quantitativi
12. La fase operativa e l'analisi dei dati – casi studio
13. Il benchmarking e i modelli multivariati
14. Un caso studio