Si apra il dataset automobili.xls e si importino i dati in Tanagra come mostrato nelle precedenti unità.
Una volta aperto il software, si clicchi sul simbolo di Define Status e, poi, con il tasto destro del mouse si selezionino le variabili da utilizzare nell’analisi come mostrato nella figura adiacente.
Per avviare la routine di CA gerarchica bisogna trascinare il comando HAC (che si trova in Clustering nel menù Components) nell’icona di Define Status.
Si clicchi, poi, con il tasto destro alla voce Parameters come mostrato nella figura adiacente.
Nella finestra che si aprirà successivamente si lascino i comandi che appaiono di default (come mostrato nell’immagine), cliccando su OK.
In particolare, non si definisce il numero di cluster a priori (in Best clusters) e si richiede come report la sezione dei cluster (in Show detailed results).
A questo punto si clicca con il tasto destro su HAC e si seleziona View per avere il report dell’analisi di cluster e il dendrogramma.
Il Software Tanagra individua automaticamente il “salto” maggiore all’interno del dendrogramma (nell’esempio riportato i cluster individuati sono 3).
Cliccando sulla voce Dendrogram appare il grafico (riportato nella slide successiva).
Per comprendere in che modo sono stati individuati i cluster della partizione selezionata, si clicca sul simbolo di Define Status (che apparirà sotto il comando di HAC). Si indicano come Input tutte le variabili (eccetto Auto che rappresenta l’etichetta delle osservazioni, cioè il nome delle auto).
Come Target si indica la partizione ottenuta dall’analisi HAC appena effettuata (Cluster_HAC_1).
Una volta definiti i parametri si aggiunge il comando Group Characterization che si trova sotto la voce Statistics in Components, quindi, tasto destro del mouse e si clicca su View.
Per una migliore comprensione dei risultati, si suggerisce di copiare i risultati in un file Excel, andando sulla voce Component del menù in alto e, poi, si clicca su Copy Results ed, infine, si incollano i risultati su un file Excel.
Nella tabella adiacente è riportato l’output descrittivo del primo cluster.
In particolare la tabella contiene, per ogni variabile considerata (sia essa attiva o illustrativa), il valore della statistica test, il valore medio nel gruppo e il valore medio dell’intero dataset. Inoltre nelle parentesi tonde sono riportate rispettivamente le deviazioni standard del gruppo e del campione in generale.
Nell’output in esame, il primo cluster (11 auto) è formato dai veicoli di grandi dimensioni. Questi sono pesanti, potenti, consumano molto e sono tutte di produzione statunitense.
Il secondo cluster (8 auto) è formato dai veicoli di medie dimensioni.
Essi sono mediamente potenti, sono caratterizzate da un’elevata manovrabilità e sono auto principalmente di produzione europea.
Il terzo cluster (19 veicoli) è formato dai veicoli di piccole dimensioni. Essi sono caratterizzati da bassi consumi, potenza e peso ridotti.
La produzione è principalmente giapponese e italiana.
Spesso per ridurre la dimensionalità del problema, in termini di numero di variabili da considerare nella costruzione di un dendrogramma, e per accrescere la capacità interpretativa dell’analisi di cluster è possibile eseguire in via preliminare un analisi fattoriale (ACP o ACM) sui dati originali.
In questo modo si sostituiscono le variabili osservate con un numero ridotto di variabili latenti che vengono impiegate quali input della analisi di cluster gerarchica.
Il vantaggi di un tale approccio si sintetizzano in:
Si trascina il comando Principal Components Analysis su HAC e, con il tasto destro del mouse sul nuovo componente, si clicca su View.
In questo modo si effettua un Analisi delle Componenti Principali sulle variabili selezionate per la cluster.
Come si evince dalla figura adiacente, i primi due assi fattoriali raggiungono il 98,7% dell’informazione disponibile.
Per ottenere il Cerchio delle Correlazioni si aggiunge ancora un Define Status e come Target si individuano i primi due assi.
Come Input tutti gli altri descrittori: quelli che hanno reso possibile la costruzione degli assi (MPG, Peso, Rapporto di trasmissione, Cavalli, Cilindrata e Cilindri).
Si aggiunge poi il comando Correlation Scatterplot per visualizzare il Cerchio delle Correlazioni tra i due assi principali (come in figura).
A questo punto per una migliore visualizzazione e interpretazione dei cluster si aggiunge il componente Scatterplot all’ACP e si clicca su View come in precedenza.
I passi, previsti nel software, per lo svolgimento di un’analisi non gerarchica, sono simili a quelli illustrati sin’ora.
La routine da eseguire è quella K-means che si trova sotto la macrovoce Factorial Analysis.
Si clicca con il tasto destro del mouse sul nuovo componente e si scelgono le impostazioni mostrate nella figura sulla destra.
E’ possibile scegliere il numero di gruppi che formano la partizione da identificare (si ricordi che K deve essere noto a-priori), il tipo di algoritmo, e il modo in cui il computer scegli il punto casuale da cui parte l’algoritmo di clustering.
Una volta effettuate le scelte dei parametri è possibile eseguire l’analisi cliccando con il tasto destro del mouse su K-Means, e selezionando View.
Resta invariata la possibilità, anche per la cluster non gerarchica, di effettuare un’analisi combinata con l’approccio fattoriale per ridurre la dimensionalità del problema e rappresentare la partizione su un piano fattoriale.
2. Scale di misura, scale di atteggiamenti e indicatori sociali
3. Alcune scale per la misurazione di atteggiamenti
5. L'Analisi in Componenti Principali
6. Introduzione all'utilizzo del software statistico Tanagra
7. Analisi delle Componenti Principali con il software statistico Tanagra
8. L'Analisi delle Corrispondenze Multiple
9. Analisi delle Corrispondenze Multiple con il software statistico TANAGRA
10. Introduzione alla Cluster Analysis
11. Cluster Analysis Gerarchica
12. Cluster Analysis non Gerarchica