Vai alla Home Page About me Courseware Federica Living Library Federica Federica Podstudio Virtual Campus 3D La Corte in Rete
 
Il Corso Le lezioni del Corso La Cattedra
 
Materiali di approfondimento Risorse Web Il Podcast di questa lezione

Roberta Siciliano » 13.Analisi delle Componenti Principali


Obiettivo e contenuti

Obiettivo

Introduzione ai metodi fattoriali per l’analisi multivariata dei dati
Comprendere la base metodologica per l’applicazione dell’Analisi delle Componenti Principali (ACP)

Contenuti

L’analisi multivariata dei dati: scuole e metodologie a confronto
L’obiettivo dell’ACP
L’interpretazione geometrica
La derivazione analitica
Diagonalizzazione della matrice delle covarianze
Importanza degli autovalori
Criteri di scelta del numero di assi fattoriali
Distanza tra due punti-variabile
Ausili all’interpetazione degli assi fattoriali
ACP della matrice delle variabili standardizzate
Caso studio: indicatori di performance aziendale

L’analisi multivariata dei dati

Scuole di pensiero a confronto

  • Approccio confermativo (Classical Statistics, Hotelling, anni ‘30):

Punto di partenza: estensione dei modelli probabilistici univariati e bivariati a più di due variabili (statistica multivariata)
Obiettivo: costruzione di modelli esplicativi di ricostruzione del dato multivariato che permettano di confermare le ipotesi formulate sulla distribuzione delle variabili

  • Approccio esplorativo o descrittivo (Analyse des données, Benzecrì, anni ‘70):

Punto di partenza: sistema ampio di dati elementari e non plausibilità di assunzioni probabilistiche
Obiettivo: descrivere geometricamente la complessità del fenomeno oggetto di studio

Metodi a confronto

  • Metodi fattoriali:

Punto di partenza: Analisi della struttura di relazione tra le variabili
Obiettivo: Eliminare le informazioni ridondanti nei dati e ricorrere a metodi di riduzione e di sintesi delle variabili
Metodo: Determinare geometricamente una sintesi delle variabili originali attraverso la ricerca di variabili latenti (non osservate) e descrizione della struttura di relazione tra le variabili in piani fattoriali ottimali, distinguendo l’analisi delle componenti principali per variabili numeriche dall’analisi delle corrispondenze multiple in presenza di caratteri qualitativi

  • Metodi di classificazione:

Punto di partenza: Analisi delle similarità tra le unità statistiche
Obiettivo: Classificare le unità statistiche in gruppi omogenei internamente ed eterogenei esternamente rispetto ad una variabile target (classificazione supervisionata o segmentazione binaria, nota come classificazione e regressione ad albero) oppure all’insieme delle variabili (classificazione non supervisionata o analisi dei gruppi nota come cluster analysis)
Metodo: Determinare gerarchicamente i gruppi secondo un algoritmo di partizione ricorsiva del collettivo di unità oppure secondo un algoritmo agglomerativo partendo dalle singole unità (classificazione gerarchica), altresì identificando l’appartenenza di ciascuna unità ad uno dei gruppi prefissati nel numero, sulla base di un criterio di similarità o distanza e procedendo iterativamente fino alla loro stabilità (classificazione non gerarchica)

L’obiettivo dell’ACP

L’ACP è un metodo fattoriale per la sintesi di “p” variabili quantitative, tra loro correlate, attraverso l’identificazione di h<p variabili latenti (non osservate), dette componenti principali, che godono delle seguenti proprietà:

  • sono tra loro non correlate (ortogonali) e legate linearmente alle variabili di partenza
  • sono determinate in ordine decrescente rispetto alla percentuale di variabilità spiegata

Qualora non si possibile rappresentare totalmente la variabilità originaria con meno di p variabili, l’ACP si limita a rappresentare la maggior parte di questa variabilità con un minor numero di variabili.

La matrice dei dati X è formata da n unità statistiche e p variabili quantitative correlate tra loro.

I vettori di riga di X sono punti-unità nello spazio Rp generato dalle variabili.

I vettori colonna di X sono punti-variabile nello spazio Rn generato dalle unità.

La matrice dei dati

La matrice dei dati


L’interpretazione geometrica

Sintesi di p=2 variabili attraverso h=1 asse fattoriale

Supponendo di rappresentare sul piano cartesiano i punti-unità le cui coordinate sono i valori standardizzati delle due variabili.
Con l’ACP si identifica l’asse fattoriale nella direzione di massima variabilità della nube dei punti-unità, in modo da deformare il meno possibile la distanza reciproca tra punti: si minimizza la somma delle distanze dei punti dall’asse (AB), che equivale a massimizzare la somma delle proiezioni dei punti sull’asse (OA) [Teorema di Pitagora].

Ricerca dell’asse fattoriale

Ricerca dell'asse fattoriale


La derivazione analitica

Il vettore c1 delle proiezioni degli n punti-unità sul primo asse fattoriale u1 (di norma unitaria) è dato da:
c1=Xu1 (prima componente principale)

La funzione obiettivo da massimizzare è:

L1=(Xu1)2=u1XXu1

sotto il vincolo che la somma dei quadrati dei coefficienti è pari ad uno (figura a lato).

Determinazione del primo asse fattoriale

Determinazione del primo asse fattoriale

Condizione di norma unitaria

Condizione di norma unitaria


La derivazione analitica (segue)

Il secondo asse fattoriale u2 è un asse ortogonale al primo (u1) e di norma unitaria che massimizza la variabilità dei punti proiettati:

c2=Xu2 (seconda componente principale)

La funzione obiettivo è:

L2=u2X’Xu2-λ(u’2u2-1)=max

sotto i vincoli (figura a lato).

Condizione di ortonormalità

Condizione di ortonormalità


Diagonalizzazione della matrice delle covarianze

Se X contiene le variabili centrate, massimizzare la somma delle proiezioni dei punti-unità equivale, a meno di una costante (1/n), alla diagonalizzazione della matrice delle covarianze S, con la proprietà:

U’X'XU = (1/n) U’SU = Λ

Ciò implica la ricerca degli autovalori ed autovettori:

X’XUα = λαuα    (α= 1….l)

Importanza degli autovalori

L’α-mo autovalore è pari alla somma dei quadrati delle proiezioni sull’asse uα, e rappresenta quindi una misura della variabilità su quell’asse.

λα= uαXUα = (XUα)2

Un confronto tra sintesi diverse

Un confronto tra sintesi diverse


La variabilità spiegata

Vale la relazione in figura.
Lo spazio p-dimensionale definito dagli assi fattoriali ricostruisce esattamente la variabilità della nube dei punti nello spazio originario Rp.
Il singolo autovalore λα rappresenta la varianza spiegata dalla α-ma componente principale.

Pertanto, sommando i primi h autovalori e rapportando tale somma alla variabilità totale è possibile esprimere percentualmente la quota di variabilità spiegata dai primi h assi fattoriali.

Variabilità totale

Variabilità totale


Criteri di scelta del numero di assi fattoriali

  1. Variabilità spiegata: si fissa una soglia minima di variabilità spiegata
  2. Eigenvalue-one (per variabili standardizzate): poiché le varabili hanno varianza unitaria si scelgono solo gli autovalori maggiori di uno
  3. Scree-Test: si considerano i fattori i cui autovalori precedono il salto massimo di variabilità spiegata

Distanza tra due punti-variabile

Analogamente, è possibile derivare gli assi fattoriali per rappresentare i punti-variabile nello spazio generato dalle unità.
Si dimostra che studiare le distanze o prossimità tra punti equivale a studiarne la correlazione e che i punti-variabile sono racchiusi nel cerchio delle correlazioni.

Distanza tra due punti-variabile

Distanza tra due punti-variabile


ACP della matrice delle variabili standardizzate

Quando le variabili di partenza non sono espresse nella stessa unità di misura si ricorre alla loro standardizzazione.

Caso di ACP con variabili standardizzate

Caso di ACP con variabili standardizzate


Ausili all’interpretazione dei fattori

Contributo assoluto: esprime il contributo di ciascun elemento (punto-unità o punto-variabile) alla spiegazione del fattore, ossia il peso di ciascun elemento nell’ammontare dell’inerzia riprodotta dal fattore, nel ricostruire cioè la variabilità di un certo asse fattoriale espressa dall’autovalore.
Per l’i-mo punto unità e l’α mo fattore avremo la relazione in figura.

Contributo relativo: esprime il contributo del fattore alla spiegazione di ciascun elemento (punto-unità o punto-variabile), ossia quanto il fattore riesce a rappresentare un elemento.
Per l’i-mo punto unità e l’α –mo fattore avremo la relazione (seconda figura) il cui rapporto è pari al quadrato del coseno dell’angolo formato da elemento e fattore ed esprime una misura della qualità della rappresentazione.

I contributi assoluti

I contributi assoluti

I contributi relativi

I contributi relativi


I punti supplementari

Le unità supplementari
Non concorrono a determinare la soluzione fattoriale ma sono proiettate sui piani fattoriali per studiare la loro prossimità con i punti-unità che hanno concorso a determinare le componenti principali.
Esempi:

  • nuove osservazioni
  • osservazioni “di controllo”

Le variabili supplementari
Non concorrono a determinare la soluzione fattoriale ma sono proiettate sui piani fattoriali per studiare la loro correlazione con le componenti principali.
Esempi:

  • variabili socio-demografiche
  • variabili ridondanti

Caso studio: indicatori della performance aziendale

Le variabili:

  • ECON.PRO -> economic profit , differenziale tra rendimento del capitale investito ed il suo costo
  • CASH -> cash flow sul fatturato in %
  • LAVOR.VA -> costo del lavoro sul valore aggiunto, in%
  • ROE -> return on equity, utile netto sul patrimonio, in%
  • INDE.CAP -> indebitamento sul capitale proprio
  • FATTURATO
Le 5000 società leader, supplemento a Milano Finanza, 1998 (Zani, 2000).

Le 5000 società leader, supplemento a Milano Finanza, 1998 (Zani, 2000).


La matrice dei dati standardizzati

Standardizzazione delle variabili

Standardizzazione delle variabili


La matrice delle correlazioni

L’osservazione della matrice di correlazione è una fase importante: se tutte le variabili fossero non correlate tra di loro non avrebbe senso procedere con un metodo fattoriale, infatti si avrebbero tante componenti quante variabili osservate.
Dalla tabella si evince come il ROE sia fortemente correlato positivamente col Cash Flow e la variabile economic profit.

Tabelle delle correlazioni semplici

Tabelle delle correlazioni semplici


Il calcolo degli autovettori e autovalori

Si procede con il calcolo degli autovettori e autovalori della matrice di correlazione.
Gli autovalori vanno ordinati in maniera decrescente.

Si procede con il calcolo degli autovettori e autovalori della matrice di correlazione. Gli autovalori vanno ordinati in maniera decrescente.


Il calcolo delle coordinate


Il calcolo della variabilità spiegata

Occorre stabilire un criterio per la scelta delle componenti da trattenere nel modello.
Criteri di scelta delle componenti:

  • Variabilità spiegata (le prime h componenti che spiegano almeno il 75% della variabilità)
  • Autovalore (le prime h componenti il cui autovalore è non inferiore a 1)

Nel caso in esame entrambi i criteri portano alla scelta delle prime due componenti con una percentuale di variabilità spiegata pari al 74,90%.

Selezione del numero di assi fattoriali

Selezione del numero di assi fattoriali


Le coordinate dei punti-variabile

Procedendo all’analisi dei punti-variabile è possibile individuare il ruolo giocato da ciascuna variabile nella costruzione degli assi ortogonali.

Naturalmente siamo interessati soltanto ai primi 2 assi.

Ricordando la matrice di correlazione notiamo come, nella costruzione del primo asse, sono state la variabili maggiormente correlate a giocare un ruolo preminente.


Interpretazione del cerchio delle correlazioni

Le variabili correlate con il primo asse suggeriscono di interpretare lo stesso come una sintesi di redditività: a destra vi è una redditività alta, a sinistra una redditività bassa.
Il secondo asse discrimina sull’indebitamento: in alto si posizioneranno le aziende ad alto tasso di indebitamento, in basso quelle che sono meno indebitate.

Il cerchio delle correlazioni

Il cerchio delle correlazioni


La mappa fattoriale dei punti-unità

La mappa fattoriale dei punti unità mostra lo stato di salute economico-finanziaria delle 10 aziende del comparto alimentare.

La mappa fattoriale dei punti unità mostra lo stato di salute economico-finanziaria delle 10 aziende del comparto alimentare.


L’interpretazione

Alcune di esse si posizionano in zone diametralmente opposte:

  • in basso a destra c’è la Ferrero che risulta essere l’azienda più sana, poiché ha un indebitamento negativo, quindi fa fronte agli impegni finanziari col capitale proprio, e una discreta redditività
  • nel quadrante in alto a destra, si distingue la Plasmon che se pur fortemente indebitata ha un’altissima redditività. Questa azienda fa, quindi un forte affidamento al leaverage finanziario
  • nel quadrante in basso a sinistra sono presenti quelle aziende che operano in mercati saturi in cui sono leader; inoltre, trovandosi vicino all’origine degli assi fattoriali, mostrano di aver sotto controllo la situazione finanziaria, ed avendo un indebitamento negativo hanno a disposizione riserve di capitali pronte per essere utilizzate per far fronte alle esigenze del mercato o per intraprendere azioni di penetrazioni in business ad alta redditività
  • Infine, in alto a sinistra, troviamo la Parmalat: questa mostra di avere la situazione peggiore. Ha un forte indebitamento e una redditività negativa, quindi, tale impresa deve necessariamente ripensare al suo sistema di business per evitare il rischio di insolvenza

L’interpretazione (segue)

Come si evince dall’analisi svolta, l’Analisi delle Componenti Principali può risultare un potente strumento metodologico di ausilio a coloro che in azienda devono prendere delle decisioni.

Il caso del crac finanziario della Parmalat, poteva essere evitato o ridimensionato se ci fosse stata una seria condotta da parte degli analisti finanziari. Infatti, è bastata una semplice ACP per comprendere il disastro economico e finanziario verso cui la Parmalat si stava avviando.

I materiali di supporto della lezione

Zani, S., Cerioli, A., Analisi dei dati e data mining per le decisioni aziendali, Giuffrè Milano, ultima edizione.

  • Contenuti protetti da Creative Commons
  • Feed RSS
  • Condividi su FriendFeed
  • Condividi su Facebook
  • Segnala su Twitter
  • Condividi su LinkedIn
Progetto "Campus Virtuale" dell'Università degli Studi di Napoli Federico II, realizzato con il cofinanziamento dell'Unione europea. Asse V - Società dell'informazione - Obiettivo Operativo 5.1 e-Government ed e-Inclusion

Fatal error: Call to undefined function federicaDebug() in /usr/local/apache/htdocs/html/footer.php on line 93