L’analisi fattoriale consiste in un insieme di tecniche statistiche che permettono di ottenere una riduzione della complessità del numero di fattori che spiegano un fenomeno.
Si propone quindi di determinare un certo numero di variabili “latenti” (fattori non direttamente misurabili nella realtà) più ristretto e riassuntivo rispetto al numero di variabili di partenza.
Si pensi, ad esempio, all’insieme dei voti di una popolazione di studenti di una certa scuola.
I voti riguardano il rendimenti degli stessi nelle diverse materie (italiano, matematica, scienze, geografia, storia, ecc.). È lecito supporre che le abilità di apprendimento possano distinguersi in due fattori: abilità nelle materie scientifiche e abilità nelle materie umanistiche.
Con l’analisi fattoriale è possibile misurare queste due abilità attraverso al costruzione di due variabili latenti sintesi (combinazione lineare) delle variabili originarie (i voti nelle diverse materie) ognuna pesata sulla base della importanza “u” (del contributo) nel discriminare gli individui sulla base delle loro abilità scientifiche e umanistiche.
L’analisi fattoriale trova grande applicazione nelle scienze sociali
in cui l’esigenza è la misurazione di un atteggiamento non direttamente osservabile (la variabile latente)
ma espresso attraverso una serie di opinioni/comportamenti dei soggetti (le variabili originarie).
Obiettivo:
individuazione di variabili di sintesi ↔ dimensioni ↔ variabili latenti ↔ variabili non osservate.
Approccio:
Ordinamenti tra variabili/mutabili.
Metodi:
L’Analisi delle Componenti Principali (ACP) consente di ridurre la dimensionalità dell’insieme dei dati eliminando la ridondanza di informazioni risultato di p variabili altamente correlate e di sostituire a queste ultime un minor numero h (con h < p) di nuove variabili tra loro non correlate e legate linearmente alle variabili di partenza.
Le nuove variabili oltre ad essere non correlate sono ordinate rispetto alla percentuale di variabilità presente nei dati originali.
Seguendo un approccio geometrico, la matrice dei dati X può essere vista come una nube dei punti in uno spazio multidimensionale.
Obiettivo dell’ACP di individuare una o più variabili latenti si concretizza, in “un’ottica geometrica”, nell’individuare uno spazio di dimensione ridotta su cui proiettare la nube dei punti originari e studiare le distanze tra i vari punti (proiettati).
Tali proiezioni costituiscono un’approssimazione delle relazioni esistenti tra i vari punti in quanto le distanze originarie risultano deformate.
Obiettivo:
Sintetizzare le informazioni a disposizione garantendo la minima perdita di informazione (in termini di relazioni tra i dati).
Finalità operativa:
Ricercare di un sistema di assi fattoriali (le componenti principali) ortogonali che generi il sottospazio di “migliore” approssimazione tale da deformare il meno possibile le distanze tra i punti.
Se x è una matrice dei dati “unità per variabili” di dimensioni n-k. la matrice Σ (“Sigma”) di varianze e covarianze è: (vedi figura). La variabilità del sistema k-variato viene sintetizzato con la traccia della matrice di var-cov.
Essa esprime al contempo la variabilità delle singole variabili (sulla diagonale) e la co-variazione tra le stesse, prese due a due (elementi non diagonali).
Una generica Componente Principale (CP) si definisce come una combinazione lineare delle p variabili originarie pesate per un vettore di pesi u.
La prima CP è la combinazione lineare delle p variabili di partenza avente massima varianza; la seconda CP è la combinazione lineare delle p variabili con varianza immediatamente inferiore, soggetta al vincolo di essere ortogonale alla componente precedente, e così via…
La determinazione della prima CP richiede l’individuazione del vettore p-dimensionale dei coefficienti della seguente combinazione lineare delle p variabili espresse in termini degli scostamenti dalle loro medie (variabili centrate):
La varianza totale di una trasformazione lineare di X è esprimibile in funzione della matrice di Varianza-Covarianza ∑:
Posta tale relazione, il vettore è ricercato in modo tale da massimizzare la
secondo il vincolo
.
La ricerca delle CP si concretizza in un problema massimo vincolato.
Si ricercano i pesi u che massimizzano la varianza delle componenti con i vincoli:
Il problema di massimo si risolve attraverso l’utilizzo del moltiplicatore di Lagrange che porta alla seguente soluzione:
Per la prima componente
Pari anche a
Dove la matrice di varianze e covarianze è ottenuta come prodotto della matrice dei dati centrati per se stessa.
Dalla soluzione del problema di massimo si evince come rappresenta il primo autovettore della matrice
mentre
è invece il corrispondente autovalore.
L’autovalore j-esimo può anche essere interpretato come la varianza della j-esima componente principale:
Quindi siccome l’obiettivo è quello di identificare le variabili latenti che spiegano quanta più informazione (variabilità) della nube originaria, allora La prima componente principale sarà quella con λ maggiore, e a seguire la seconda sarà quella con λ maggiore dopo la prima e cosi via….
Le CP ottenute dalla matrice di varianza-covarianza (combinazioni lineari degli scostamenti dalla media delle variabili originarie) sono lecite se le variabili sono espresse tutte nella stessa unità di misura e differiscono unicamente in media.
Nella realtà il ricercatore si trova ad analizzare variabili con scale di misurazione differenti che quindi, prima dell’analisi, devono essere rese omogenee.
Nell’ACP, per superare tale difficoltà, si considerano le variabili espresse in termini di scostamenti standardizzati, quindi il punto di partenza dell’analisi diviene la matrice di correlazione.
Infatti, essendo la matrice delle variabili standardizzate, il prodotto
sarà pari alla matrice di correlazione R.
Ipotesi della ricerca:
Gli indicatori di bilancio, pur essendo molteplici, rappresentano l’espressione di due fattori latenti:
Obiettivo dell’analisi:
È quella di individuare la migliore sintesi degli indici di bilancio che consenta di ordinare le aziende sulla base dei due fattori ipotizzati.
Essendo le variabili tutte di natura numerica, si utilizza l’Analisi delle Componenti Principali.
L’osservzione della matrice di correlazione è una fase importante:
se tutte le variabili fossero non correlate tra di loro non avrebbe senso procedere con un metodo fattoriale, infatti si avrebbero tante componenti quante variabili osservate.
La ricerca dello spazio di dimensioni ridotte che sintetizzi nella maniera più efficiente la struttura informativa contenuta nella matrice dei dati originari può essere effettuata sia rispetto agli individui sia rispetto alle variabili.
Si parla così di analisi:
Si può dimostrare che gli autovalori ottenuti nelle due analisi coincidono.
Ciò implica che le CP individuate sono le stesse anche se differiscono nei due spazi per la diversa unità di misura delle colonne di X rispetto alle righe (standardizzate le prime, non le seconde).
L’analisi nello spazio degli individui permette di “interpretare” il significato delle variabili latenti selezionate.
L’analisi nello spazio delle variabili individua un ordinamento delle unità rispetto alle variabili latenti selezionate.
La rappresentazione grafica: il primo piano fattoriale delle unità (formato dalla prima e dalla seconda componente).
Analogamente all’analisi delle unità, per le variabili li coordinate si calcolano moltiplicando le righe della matrice trasposta X’ per il vettore degli autovalori {v1,v2,…,vj,…,vh}.
Nell’immagine di fianco si riportano le coordinate dei punti-variabile sulle prime due componenti.
In generale, la correlazione variabile-componente è data dal coseno dell’angolo tra i due vettori. Più l’angolo è stretto e maggiore sarà la correlazione. La correlazione è nulla per angoli di 90°.
Quando l’analisi è effettuata sulla matrice di correlazione, le coordinate possono essere interpretate come coefficienti di correlazione delle variabili originarie rispetto alle componenti considerate.
Così, nel nostro caso studio, si può affermare che il ROE è fortemente correlato in maniera positiva con CP1 ed è incorrelato con CP2.
L’analisi di queste coordinate consente di interpretare le componenti latenti!!
Interpretazione
Le variabili correlate con la prima CP suggeriscono di interpretare lo stesso come una sintesi di redditività:
La seconda CP discrimina sull’indebitamento:
Alcune osservazioni
La Plasmon presenta elevatissimi valori di redditività (CP1) e un indebitamento sopra la media (CP2).
La Parmalat presenta scarsi valori di redditività (CP1) e un fortissimo indebitamento sopra la media (CP2).
Le aziende vicino al centro degli assi presentano redditività e indebitamento nella media.
Sui piani fattoriali, risultato dell’analisi, è possibile proiettare alcuni punti in supplementare.
Punti-unità in supplementare
Non concorrono a determinare la soluzione fattoriale ma sono proiettati sui piani fattoriali per studiare la loro prossimità con i punti-unità che hanno concorso a determinare le componenti principali.
Esempi:
Punti-variabile in supplementare
Non concorrono a determinare la soluzione fattoriale ma sono proiettati sui piani fattoriali per studiare la loro correlazione con le componenti principali.
Esempi:
Nella prossima lezione si affronteranno i seguenti argomenti:
2. Scale di misura, scale di atteggiamenti e indicatori sociali
3. Alcune scale per la misurazione di atteggiamenti
5. L'Analisi in Componenti Principali
6. Introduzione all'utilizzo del software statistico Tanagra
7. Analisi delle Componenti Principali con il software statistico Tanagra
8. L'Analisi delle Corrispondenze Multiple
9. Analisi delle Corrispondenze Multiple con il software statistico TANAGRA
10. Introduzione alla Cluster Analysis
11. Cluster Analysis Gerarchica
12. Cluster Analysis non Gerarchica