Vai alla Home Page About me Courseware Federica Living Library Federica Federica Podstudio Virtual Campus 3D Le Miniguide all'orientamento Gli eBook di Federica La Corte in Rete
 
I corsi di Economia
 
Il Corso Le lezioni del Corso La Cattedra
 
Materiali di approfondimento Risorse Web Il Podcast di questa lezione

Massimo Aria » 5.L'Analisi in Componenti Principali


L’Analisi fattoriale

L’analisi fattoriale consiste in un insieme di tecniche statistiche che permettono di ottenere una riduzione della complessità del numero di fattori che spiegano un fenomeno.

Si propone quindi di determinare un certo numero di variabili “latenti” (fattori non direttamente misurabili nella realtà) più ristretto e riassuntivo rispetto al numero di variabili di partenza.

Si pensi, ad esempio, all’insieme dei voti di una popolazione di studenti di una certa scuola.
I voti riguardano il rendimenti degli stessi nelle diverse materie (italiano, matematica, scienze, geografia, storia, ecc.). È lecito supporre che le abilità di apprendimento possano distinguersi in due fattori: abilità nelle materie scientifiche e abilità nelle materie umanistiche.

Con l’analisi fattoriale è possibile misurare queste due abilità attraverso al costruzione di due variabili latenti sintesi (combinazione lineare) delle variabili originarie (i voti nelle diverse materie) ognuna pesata sulla base della importanza “u” (del contributo) nel discriminare gli individui sulla base delle loro abilità scientifiche e umanistiche.

L’analisi fattoriale trova grande applicazione nelle scienze sociali
in cui l’esigenza è la misurazione di un atteggiamento non direttamente osservabile (la variabile latente)
ma espresso attraverso una serie di opinioni/comportamenti dei soggetti (le variabili originarie).

Metodi di Analisi fattoriale

Obiettivo:
individuazione di variabili di sintesi ↔ dimensioni ↔ variabili latenti ↔ variabili non osservate.

Approccio:
Ordinamenti tra variabili/mutabili.

Metodi:

  • Analisi in Componenti Principali (ACP) per variabili quantitative;
  • Analisi delle Corrispondenze Binarie (ACB) per tabelle di contingenza;
  • Analisi delle Corrispondenze Multiple (ACM) per variabili qualitative.
Rappresentazione grafico di un approccio fattoriale.

Rappresentazione grafico di un approccio fattoriale.


L’Analisi delle Componenti Principali

L’Analisi delle Componenti Principali (ACP) consente di ridurre la dimensionalità dell’insieme dei dati eliminando la ridondanza di informazioni risultato di p variabili altamente correlate e di sostituire a queste ultime un minor numero h (con h < p) di nuove variabili tra loro non correlate e legate linearmente alle variabili di partenza.

Le nuove variabili oltre ad essere non correlate sono ordinate rispetto alla percentuale di variabilità presente nei dati originali.

Rappresentazione grafica dell’ACP


Approccio geometrico all’ACP

Lettura geometrica della matrice dei dati.

Lettura geometrica della matrice dei dati.


Sintesi dell’informazione

Seguendo un approccio geometrico, la matrice dei dati X può essere vista come una nube dei punti in uno spazio multidimensionale.

Obiettivo dell’ACP di individuare una o più variabili latenti si concretizza, in “un’ottica geometrica”, nell’individuare uno spazio di dimensione ridotta su cui proiettare la nube dei punti originari e studiare le distanze tra i vari punti (proiettati).

Tali proiezioni costituiscono un’approssimazione delle relazioni esistenti tra i vari punti in quanto le distanze originarie risultano deformate.

Proiezione dei punti su un asse.

Proiezione dei punti su un asse.


Obiettivo e finalità operativa dell’ACP

Obiettivo:
Sintetizzare le informazioni a disposizione garantendo la minima perdita di informazione (in termini di relazioni tra i dati).

Finalità operativa:
Ricercare di un sistema di assi fattoriali (le componenti principali) ortogonali che generi il sottospazio di “migliore” approssimazione tale da deformare il meno possibile le distanze tra i punti.

La matrice di varianze e covarianze

Se x è una matrice dei dati “unità per variabili” di dimensioni n-k. la matrice Σ (“Sigma”) di varianze e covarianze è: (vedi figura). La variabilità del sistema k-variato viene sintetizzato con la traccia della matrice di var-cov.

Essa esprime al contempo la variabilità delle singole variabili (sulla diagonale) e la co-variazione tra le stesse, prese due a due (elementi non diagonali).

La variabilità del sistema k-variato viene sintetizzata con la traccia della matrice var-voc.

La variabilità del sistema k-variato viene sintetizzata con la traccia della matrice var-voc.


Esempio di matrice di varianze e covarianze


Definizione delle Componenti principali

Una generica Componente Principale (CP) si definisce come una combinazione lineare delle p variabili originarie pesate per un vettore di pesi u.

La prima CP è la combinazione lineare delle p variabili di partenza avente massima varianza; la seconda CP è la combinazione lineare delle p variabili con varianza immediatamente inferiore, soggetta al vincolo di essere ortogonale alla componente precedente, e così via…

La determinazione della prima CP richiede l’individuazione del vettore p-dimensionale u_1 dei coefficienti della seguente combinazione lineare delle p variabili espresse in termini degli scostamenti dalle loro medie (variabili centrate):

CP_1 =\tilde X u_1

La varianza totale di una trasformazione lineare di X è esprimibile in funzione della matrice di Varianza-Covarianza ∑:
VAR(\tilde Xu_1 ) = u_1^{'} \sum {u_1}

Posta tale relazione, il vettore u_1 è ricercato in modo tale da massimizzare la  VAR(\tilde Xu_1 ) secondo il vincolo u_1^{'} u_1 .

Definizione delle Componenti principali (segue)

La ricerca delle CP si concretizza in un problema massimo vincolato.

Si ricercano i pesi u che massimizzano la varianza delle componenti con i vincoli:

  • che i vettori u siano unitari (il loro prodotto è pari a 1);
  • che, per le componenti successive alla prima, i vettori siano a due a due ortogonali (u_iu_j=0 per ogni i≠j)

Il problema di massimo si risolve attraverso l’utilizzo del moltiplicatore di Lagrange che porta alla seguente soluzione:

Per la prima componente   u_1^{'} \sum {u_1 } = u_1^{'} \lambda _1 u_1 = \lambda _1

Pari anche a     \tilde{X} ' \tilde{X} u_1 = \lambda _1 u_1

Dove la matrice di varianze e covarianze  \sum = \tilde X'\tilde X è ottenuta come prodotto della matrice dei dati centrati per se stessa.

Autovalori e autovettori

\tilde{X} ' \tilde{X} u_1 = \lambda _1 u_1

Dalla soluzione del problema di massimo si evince come u_1 rappresenta il primo autovettore della matrice \tilde X' \tilde X mentre \lambda_1 è invece il corrispondente autovalore.

L’autovalore j-esimo può anche essere interpretato come la varianza della j-esima componente principale:

\lambda _j = u_j^{'} \tilde{X}' \tilde{X} u_j = \left( {CP_j } \right)^2 = VAR\left( {CP_j } \right)

Quindi siccome l’obiettivo è quello di identificare le variabili latenti che spiegano quanta più informazione (variabilità) della nube originaria, allora La prima componente principale sarà quella con λ maggiore, e a seguire la seconda sarà quella con λ maggiore dopo la prima e cosi via….

L’analisi sulla matrice di correlazione

Le CP ottenute dalla matrice di varianza-covarianza (combinazioni lineari degli scostamenti dalla media delle variabili originarie) sono lecite se le variabili sono espresse tutte nella stessa unità di misura e differiscono unicamente in media.

Nella realtà il ricercatore si trova ad analizzare variabili con scale di misurazione differenti che quindi, prima dell’analisi, devono essere rese omogenee.

Nell’ACP, per superare tale difficoltà, si considerano le variabili espresse in termini di scostamenti standardizzati, quindi il punto di partenza dell’analisi diviene la matrice di correlazione.

Infatti, essendo \tilde X la matrice delle variabili standardizzate, il prodotto  \tilde X'\tilde X = R sarà pari alla matrice di correlazione R.

Criteri di scelta del numero di componenti

  1. Variabilità spiegata
    si fissa una soglia minima di variabilità spiegata (in percentuale rispetto alla variabilità totale che è pari alla traccia della matrice di correlazione/di varianze e covarianze);
  2. Eigenvalue-one (per variabili standardizzate)
    Poiché le variabili originarie standardizzate hanno varianza unitaria si scelgono solo gli autovalori maggioridi uno (i quali esprimono CP che , essendo la varianza maggiore di uno, sintetizzano maggiore informazione rispetto alle singole variabili originarie);
  3. Scree-Test
    si considerano le CP i cui autovalori precedono il salto massimo di variabilità spiegata.

Un caso studio: lo stato di salute di alcune aziende

Ipotesi della ricerca:
Gli indicatori di bilancio, pur essendo molteplici, rappresentano l’espressione di due fattori latenti:

  • la performance economica dell’azienda;
  • l’equilibrio finanziario dell’azienda;

Obiettivo dell’analisi:
È quella di individuare la migliore sintesi degli indici di bilancio che consenta di ordinare le aziende sulla base dei due fattori ipotizzati.

Essendo le variabili tutte di natura numerica, si utilizza l’Analisi delle Componenti Principali.

Le variabili considerate nel dataset. Fonte: Zani S. (2000). Analisi dei dati statistici, volume II, Editore Giuffrè.

Le variabili considerate nel dataset. Fonte: Zani S. (2000). Analisi dei dati statistici, volume II, Editore Giuffrè.


Un caso studio: il dataset

Il dataset. Data la disomogeneità delle varibili si procede standardizzando le stesse.

Il dataset. Data la disomogeneità delle varibili si procede standardizzando le stesse.


Un caso studio: la matrice dei dati standardizzati

Matrice dei dati standardizzati.

Matrice dei dati standardizzati.


Un caso studio: la matrice di correlazione

L’osservzione della matrice di correlazione è una fase importante:

se tutte le variabili fossero non correlate tra di loro non avrebbe senso procedere con un metodo fattoriale, infatti si avrebbero tante componenti quante variabili osservate.


Un caso studio: scelta delle componenti


I due spazi dell’analisi

La ricerca dello spazio di dimensioni ridotte che sintetizzi nella maniera più efficiente la struttura informativa contenuta nella matrice dei dati originari può essere effettuata sia rispetto agli individui sia rispetto alle variabili.

Si parla così di analisi:

  • dei punti-unità nello spazio delle variabili.
    Si ricercano gli autovalori e gli autovettori della matrice \tilde X' \tilde X
  • dei punti-variabile nello spazio degli individui
    Si ricercano gli autovalori e gli autovettori della matrice trasposta\tilde{X} \tilde{X}'

Si può dimostrare che gli autovalori ottenuti nelle due analisi coincidono.

Ciò implica che le CP individuate sono le stesse anche se differiscono nei due spazi per la diversa unità di misura delle colonne di X rispetto alle righe (standardizzate le prime, non le seconde).

L’analisi nello spazio degli individui permette di “interpretare” il significato delle variabili latenti selezionate.

L’analisi nello spazio delle variabili individua un ordinamento delle unità rispetto alle variabili latenti selezionate.

Un caso studio: Analisi dei punti-unità


Un caso studio: coordinate delle aziende


Un caso studio: I° piano fattoriale delle aziende

La rappresentazione grafica: il primo piano fattoriale delle unità (formato dalla prima e dalla seconda componente).

La rappresentazione grafica: il primo piano fattoriale delle unità (formato dalla prima e dalla seconda componente).


Un caso studio: le coordinate dei punti-variabile

Analogamente all’analisi delle unità, per le variabili li coordinate si calcolano moltiplicando le righe della matrice trasposta X’ per il vettore degli autovalori {v1,v2,…,vj,…,vh}.

Nell’immagine di fianco si riportano le coordinate dei punti-variabile sulle prime due componenti.

In generale, la correlazione variabile-componente è data dal coseno dell’angolo tra i due vettori. Più l’angolo è stretto e maggiore sarà la correlazione. La correlazione è nulla per angoli di 90°.

Quando l’analisi è effettuata sulla matrice di correlazione, le coordinate possono essere interpretate come coefficienti di correlazione delle variabili originarie rispetto alle componenti considerate.

Così, nel nostro caso studio, si può affermare che il ROE è fortemente correlato in maniera positiva con CP1 ed è incorrelato con CP2.

L’analisi di queste coordinate consente di interpretare le componenti latenti!!

Le coordinate dei punti-variabile.

Le coordinate dei punti-variabile.


Un caso studio: I° piano fattoriale delle variabili

Interpretazione

Le variabili correlate con la prima CP suggeriscono di interpretare lo stesso come una sintesi di redditività:

  • a destra vi è una redditività alta
  • a sinistra una redditività bassa;

La seconda CP discrimina sull’indebitamento:

  • in alto si posizioneranno le aziende ad alto tasso di indebitamento
  • in basso quelle che sono meno indebitate.

Un caso studio: Interpretazione dei punti-aziende

Alcune osservazioni

La Plasmon presenta elevatissimi valori di redditività (CP1) e un indebitamento sopra la media (CP2).

La Parmalat presenta scarsi valori di redditività (CP1) e un fortissimo indebitamento sopra la media (CP2).

Le aziende vicino al centro degli assi presentano redditività e indebitamento nella media.


Punti supplementari

Sui piani fattoriali, risultato dell’analisi, è possibile proiettare alcuni punti in supplementare.

Punti-unità in supplementare
Non concorrono a determinare la soluzione fattoriale ma sono proiettati sui piani fattoriali per studiare la loro prossimità con i punti-unità che hanno concorso a determinare le componenti principali.
Esempi:

  • nuove osservazioni;
  • osservazioni “di controllo”.

Punti-variabile in supplementare
Non concorrono a determinare la soluzione fattoriale ma sono proiettati sui piani fattoriali per studiare la loro correlazione con le componenti principali.
Esempi:

  • variabili socio-demografiche
  • variabili ridondanti

Nella prossima lezione

Nella prossima lezione si affronteranno i seguenti argomenti:

  • Introduzione al software statistico Tanagra
  • Importazione file di dati in Tanagra
  • Contenuti protetti da Creative Commons
  • Feed RSS
  • Condividi su FriendFeed
  • Condividi su Facebook
  • Segnala su Twitter
  • Condividi su LinkedIn
Progetto "Campus Virtuale" dell'Università degli Studi di Napoli Federico II, realizzato con il cofinanziamento dell'Unione europea. Asse V - Società dell'informazione - Obiettivo Operativo 5.1 e-Government ed e-Inclusion