Home

Federica EU

1/15

Massimo Aria » 13.Cluster Analysis con Tanagra

Cluster Analysis Gerarchica con Tanagra

Si apra il dataset automobili.xls e si importino i dati in Tanagra come mostrato nelle precedenti unità.

Una volta aperto il software, si clicchi sul simbolo di Define Status e, poi, con il tasto destro del mouse si selezionino le variabili da utilizzare nell’analisi come mostrato nella figura adiacente.

Come variabili (Input) del dataset automobili, indichiamo il Consumo, il Peso e il Rapporto di trasmissione.

Selezione delle variabili da considerare.

Routine HAC

Per avviare la routine di CA gerarchica bisogna trascinare il comando HAC (che si trova in Clustering nel menù Components) nell’icona di Define Status.
Si clicchi, poi, con il tasto destro alla voce Parameters come mostrato nella figura adiacente.

Avvio della routine HAC.

Parametri della routine HAC

Nella finestra che si aprirà successivamente si lascino i comandi che appaiono di default (come mostrato nell’immagine), cliccando su OK.

In particolare, non si definisce il numero di cluster a priori (in Best clusters) e si richiede come report la sezione dei cluster (in Show detailed results).

A questo punto si clicca con il tasto destro su HAC e si seleziona View per avere il report dell’analisi di cluster e il dendrogramma.

Parametri della routine HAC.

Report della routine HAC

Il Software Tanagra individua automaticamente il “salto” maggiore all’interno del dendrogramma (nell’esempio riportato i cluster individuati sono 3).

Cliccando sulla voce Dendrogram appare il grafico (riportato nella slide successiva).

Report della routine HAC.

Dendrogramma

Descrizione dei cluster

Per comprendere in che modo sono stati individuati i cluster della partizione selezionata, si clicca sul simbolo di Define Status (che apparirà sotto il comando di HAC). Si indicano come Input tutte le variabili (eccetto Auto che rappresenta l’etichetta delle osservazioni, cioè il nome delle auto).
Come Target si indica la partizione ottenuta dall’analisi HAC appena effettuata (Cluster_HAC_1).

Descrizione dei cluster.

Descrizione dei cluster (segue)

Una volta definiti i parametri si aggiunge il comando Group Characterization che si trova sotto la voce Statistics in Components, quindi, tasto destro del mouse e si clicca su View.
Per una migliore comprensione dei risultati, si suggerisce di copiare i risultati in un file Excel, andando sulla voce Component del menù in alto e, poi, si clicca su Copy Results ed, infine, si incollano i risultati su un file Excel.

Group Characterization.

Descrizione del primo gruppo

Nella tabella adiacente è riportato l’output descrittivo del primo cluster.
In particolare la tabella contiene, per ogni variabile considerata (sia essa attiva o illustrativa), il valore della statistica test, il valore medio nel gruppo e il valore medio dell’intero dataset. Inoltre nelle parentesi tonde sono riportate rispettivamente le deviazioni standard del gruppo e del campione in generale.

Nell’output in esame, il primo cluster (11 auto) è formato dai veicoli di grandi dimensioni. Questi sono pesanti, potenti, consumano molto e sono tutte di produzione statunitense.

Variabili caratterizzanti il primo gruppo.

Descrizione del secondo gruppo

Il secondo cluster (8 auto) è formato dai veicoli di medie dimensioni.
Essi sono mediamente potenti, sono caratterizzate da un’elevata manovrabilità e sono auto principalmente di produzione europea.

Variabili caratterizzanti il secondo gruppo.

Descrizione del terzo gruppo

Il terzo cluster (19 veicoli) è formato dai veicoli di piccole dimensioni. Essi sono caratterizzati da bassi consumi, potenza e peso ridotti.
La produzione è principalmente giapponese e italiana.

Variabili caratterizzanti il terzo gruppo.

Cluster Analysis sugli assi fattoriali

Spesso per ridurre la dimensionalità del problema, in termini di numero di variabili da considerare nella costruzione di un dendrogramma, e per accrescere la capacità interpretativa dell’analisi di cluster è possibile eseguire in via preliminare un analisi fattoriale (ACP o ACM) sui dati originali.

In questo modo si sostituiscono le variabili osservate con un numero ridotto di variabili latenti che vengono impiegate quali input della analisi di cluster gerarchica.

Il vantaggi di un tale approccio si sintetizzano in:

un minor costo computazionale della cluster analysis dovuto alla riduzione della dimensionalità della matrice dei dati;
una più semplice interpretazione dei gruppi che si basa sui fattori di sintesi in luogo delle variabili originarie;
la possibilità di rappresentare graficamente i gruppi su uno o più piani fattoriali.

ACP e Cluster gerarchica con Tanagra

Si trascina il comando Principal Components Analysis su HAC e, con il tasto destro del mouse sul nuovo componente, si clicca su View.
In questo modo si effettua un Analisi delle Componenti Principali sulle variabili selezionate per la cluster.

Come si evince dalla figura adiacente, i primi due assi fattoriali raggiungono il 98,7% dell’informazione disponibile.

ACP e Cluster.

Il Cerchio delle Correlazioni

Per ottenere il Cerchio delle Correlazioni si aggiunge ancora un Define Status e come Target si individuano i primi due assi.
Come Input tutti gli altri descrittori: quelli che hanno reso possibile la costruzione degli assi (MPG, Peso, Rapporto di trasmissione, Cavalli, Cilindrata e Cilindri).

Si aggiunge poi il comando Correlation Scatterplot per visualizzare il Cerchio delle Correlazioni tra i due assi principali (come in figura).

Il cerchio delle correlazioni.

Rappresentazione fattoriale della partizione

A questo punto per una migliore visualizzazione e interpretazione dei cluster si aggiunge il componente Scatterplot all’ACP e si clicca su View come in precedenza.

Rappresentazione fattoriale della partizione.

Cluster non Gerarchica: K-medie

I passi, previsti nel software, per lo svolgimento di un’analisi non gerarchica, sono simili a quelli illustrati sin’ora.

La routine da eseguire è quella K-means che si trova sotto la macrovoce Factorial Analysis.
Si clicca con il tasto destro del mouse sul nuovo componente e si scelgono le impostazioni mostrate nella figura sulla destra.
E’ possibile scegliere il numero di gruppi che formano la partizione da identificare (si ricordi che K deve essere noto a-priori), il tipo di algoritmo, e il modo in cui il computer scegli il punto casuale da cui parte l’algoritmo di clustering.

Una volta effettuate le scelte dei parametri è possibile eseguire l’analisi cliccando con il tasto destro del mouse su K-Means, e selezionando View.

Resta invariata la possibilità, anche per la cluster non gerarchica, di effettuare un’analisi combinata con l’approccio fattoriale per ridurre la dimensionalità del problema e rappresentare la partizione su un piano fattoriale.