Obiettivo
Introduzione ai metodi fattoriali per l’analisi multivariata dei dati
Comprendere la base metodologica per l’applicazione dell’Analisi delle Componenti Principali (ACP)
Contenuti
L’analisi multivariata dei dati: scuole e metodologie a confronto
L’obiettivo dell’ACP
L’interpretazione geometrica
La derivazione analitica
Diagonalizzazione della matrice delle covarianze
Importanza degli autovalori
Criteri di scelta del numero di assi fattoriali
Distanza tra due punti-variabile
Ausili all’interpetazione degli assi fattoriali
ACP della matrice delle variabili standardizzate
Caso studio: indicatori di performance aziendale
Scuole di pensiero a confronto
Punto di partenza: estensione dei modelli probabilistici univariati e bivariati a più di due variabili (statistica multivariata)
Obiettivo: costruzione di modelli esplicativi di ricostruzione del dato multivariato che permettano di confermare le ipotesi formulate sulla distribuzione delle variabili
Punto di partenza: sistema ampio di dati elementari e non plausibilità di assunzioni probabilistiche
Obiettivo: descrivere geometricamente la complessità del fenomeno oggetto di studio
Punto di partenza: Analisi della struttura di relazione tra le variabili
Obiettivo: Eliminare le informazioni ridondanti nei dati e ricorrere a metodi di riduzione e di sintesi delle variabili
Metodo: Determinare geometricamente una sintesi delle variabili originali attraverso la ricerca di variabili latenti (non osservate) e descrizione della struttura di relazione tra le variabili in piani fattoriali ottimali, distinguendo l’analisi delle componenti principali per variabili numeriche dall’analisi delle corrispondenze multiple in presenza di caratteri qualitativi
Punto di partenza: Analisi delle similarità tra le unità statistiche
Obiettivo: Classificare le unità statistiche in gruppi omogenei internamente ed eterogenei esternamente rispetto ad una variabile target (classificazione supervisionata o segmentazione binaria, nota come classificazione e regressione ad albero) oppure all’insieme delle variabili (classificazione non supervisionata o analisi dei gruppi nota come cluster analysis)
Metodo: Determinare gerarchicamente i gruppi secondo un algoritmo di partizione ricorsiva del collettivo di unità oppure secondo un algoritmo agglomerativo partendo dalle singole unità (classificazione gerarchica), altresì identificando l’appartenenza di ciascuna unità ad uno dei gruppi prefissati nel numero, sulla base di un criterio di similarità o distanza e procedendo iterativamente fino alla loro stabilità (classificazione non gerarchica)
L’ACP è un metodo fattoriale per la sintesi di “p” variabili quantitative, tra loro correlate, attraverso l’identificazione di h<p variabili latenti (non osservate), dette componenti principali, che godono delle seguenti proprietà:
Qualora non si possibile rappresentare totalmente la variabilità originaria con meno di p variabili, l’ACP si limita a rappresentare la maggior parte di questa variabilità con un minor numero di variabili.
La matrice dei dati X è formata da n unità statistiche e p variabili quantitative correlate tra loro.
I vettori di riga di X sono punti-unità nello spazio Rp generato dalle variabili.
I vettori colonna di X sono punti-variabile nello spazio Rn generato dalle unità.
Sintesi di p=2 variabili attraverso h=1 asse fattoriale
Supponendo di rappresentare sul piano cartesiano i punti-unità le cui coordinate sono i valori standardizzati delle due variabili.
Con l’ACP si identifica l’asse fattoriale nella direzione di massima variabilità della nube dei punti-unità, in modo da deformare il meno possibile la distanza reciproca tra punti: si minimizza la somma delle distanze dei punti dall’asse (AB), che equivale a massimizzare la somma delle proiezioni dei punti sull’asse (OA) [Teorema di Pitagora].
Il vettore c1 delle proiezioni degli n punti-unità sul primo asse fattoriale u1 (di norma unitaria) è dato da:
c1=Xu1 (prima componente principale)
La funzione obiettivo da massimizzare è:
L1=(Xu1)2=u‘1X‘Xu1
sotto il vincolo che la somma dei quadrati dei coefficienti è pari ad uno (figura a lato).
Il secondo asse fattoriale u2 è un asse ortogonale al primo (u1) e di norma unitaria che massimizza la variabilità dei punti proiettati:
c2=Xu2 (seconda componente principale)
La funzione obiettivo è:
L2=u‘2X’Xu2-λ(u’2u2-1)=max
sotto i vincoli (figura a lato).
Se X contiene le variabili centrate, massimizzare la somma delle proiezioni dei punti-unità equivale, a meno di una costante (1/n), alla diagonalizzazione della matrice delle covarianze S, con la proprietà:
U’X'XU = (1/n) U’SU = Λ
Ciò implica la ricerca degli autovalori ed autovettori:
X’XUα = λαuα (α= 1….l)
L’α-mo autovalore è pari alla somma dei quadrati delle proiezioni sull’asse uα, e rappresenta quindi una misura della variabilità su quell’asse.
λα= uαXUα = (XUα)2
Vale la relazione in figura.
Lo spazio p-dimensionale definito dagli assi fattoriali ricostruisce esattamente la variabilità della nube dei punti nello spazio originario Rp.
Il singolo autovalore λα rappresenta la varianza spiegata dalla α-ma componente principale.
Pertanto, sommando i primi h autovalori e rapportando tale somma alla variabilità totale è possibile esprimere percentualmente la quota di variabilità spiegata dai primi h assi fattoriali.
Analogamente, è possibile derivare gli assi fattoriali per rappresentare i punti-variabile nello spazio generato dalle unità.
Si dimostra che studiare le distanze o prossimità tra punti equivale a studiarne la correlazione e che i punti-variabile sono racchiusi nel cerchio delle correlazioni.
Quando le variabili di partenza non sono espresse nella stessa unità di misura si ricorre alla loro standardizzazione.
Contributo assoluto: esprime il contributo di ciascun elemento (punto-unità o punto-variabile) alla spiegazione del fattore, ossia il peso di ciascun elemento nell’ammontare dell’inerzia riprodotta dal fattore, nel ricostruire cioè la variabilità di un certo asse fattoriale espressa dall’autovalore.
Per l’i-mo punto unità e l’α mo fattore avremo la relazione in figura.
Contributo relativo: esprime il contributo del fattore alla spiegazione di ciascun elemento (punto-unità o punto-variabile), ossia quanto il fattore riesce a rappresentare un elemento.
Per l’i-mo punto unità e l’α –mo fattore avremo la relazione (seconda figura) il cui rapporto è pari al quadrato del coseno dell’angolo formato da elemento e fattore ed esprime una misura della qualità della rappresentazione.
Le unità supplementari
Non concorrono a determinare la soluzione fattoriale ma sono proiettate sui piani fattoriali per studiare la loro prossimità con i punti-unità che hanno concorso a determinare le componenti principali.
Esempi:
Le variabili supplementari
Non concorrono a determinare la soluzione fattoriale ma sono proiettate sui piani fattoriali per studiare la loro correlazione con le componenti principali.
Esempi:
Le variabili:
L’osservazione della matrice di correlazione è una fase importante: se tutte le variabili fossero non correlate tra di loro non avrebbe senso procedere con un metodo fattoriale, infatti si avrebbero tante componenti quante variabili osservate.
Dalla tabella si evince come il ROE sia fortemente correlato positivamente col Cash Flow e la variabile economic profit.
Si procede con il calcolo degli autovettori e autovalori della matrice di correlazione. Gli autovalori vanno ordinati in maniera decrescente.
Occorre stabilire un criterio per la scelta delle componenti da trattenere nel modello.
Criteri di scelta delle componenti:
Nel caso in esame entrambi i criteri portano alla scelta delle prime due componenti con una percentuale di variabilità spiegata pari al 74,90%.
Procedendo all’analisi dei punti-variabile è possibile individuare il ruolo giocato da ciascuna variabile nella costruzione degli assi ortogonali.
Naturalmente siamo interessati soltanto ai primi 2 assi.
Ricordando la matrice di correlazione notiamo come, nella costruzione del primo asse, sono state la variabili maggiormente correlate a giocare un ruolo preminente.
Le variabili correlate con il primo asse suggeriscono di interpretare lo stesso come una sintesi di redditività: a destra vi è una redditività alta, a sinistra una redditività bassa.
Il secondo asse discrimina sull’indebitamento: in alto si posizioneranno le aziende ad alto tasso di indebitamento, in basso quelle che sono meno indebitate.
La mappa fattoriale dei punti unità mostra lo stato di salute economico-finanziaria delle 10 aziende del comparto alimentare.
Alcune di esse si posizionano in zone diametralmente opposte:
Come si evince dall’analisi svolta, l’Analisi delle Componenti Principali può risultare un potente strumento metodologico di ausilio a coloro che in azienda devono prendere delle decisioni.
Il caso del crac finanziario della Parmalat, poteva essere evitato o ridimensionato se ci fosse stata una seria condotta da parte degli analisti finanziari. Infatti, è bastata una semplice ACP per comprendere il disastro economico e finanziario verso cui la Parmalat si stava avviando.
1. Introduzione alla statistica per le decisioni di impresa
2. L'organizzazione dei dati statistici
3. L'analisi di regressione lineare multipla
4. I test diagnostici sulla regressione lineare multipla
5. L'uso delle variabili dicotomiche nella regressione
6. Il modello di regressione logistica
7. Modelli Additivi Generalizzati
8. Modelli lineari per l'analisi delle serie storiche
9. Modelli stocastici per l'analisi delle serie storiche
10. L'analisi delle preferenze: introduzione al Multidimensional Scaling
12. Metodi di segmentazione binaria e alberi di decisione
13. Analisi delle Componenti Principali
14. Analisi delle Corrispondenze Multiple
15. Cluster Analysis
Zani, S., Cerioli, A., Analisi dei dati e data mining per le decisioni aziendali, Giuffrè Milano, ultima edizione.