Il Multidimensional Scaling (MDS) è una tecnica per l’analisi di dati espressione di (dis)similarità su di un set di oggetti. In sostanza tale tecnica identifica un insieme di procedure per l’analisi di una o più matrici di indici di prossimità tra tutte le possibili coppie di n unità statistiche sulle quali sono misurate p caratteristiche.
Gli oggetti (o le caratterristiche) possono essere di diversa natura, come
Il MDS cerca di modellare tali dati come distanze tra punti in uno spazio geometrico, individuando uno spazio r-dimensionale X(r<p)che rappresenti le coordinate degli n punti in uno spazio di dimensione inferiore , attraverso cioè r dimensioni latenti.
Da X è possibile costruire una nuova matrice di distanze tra gli n punti in r dimensioni; i punti nello spazio r-dimensionale rappresentano gli n soggetti in modo tale che per ogni dimensione le distanze dij costruite nel nuovo spazio di dimensione ridotta riproducano più fedelmente possibile le distanze-dissimilarità grezze.
Il punto di partenza di una analisi di MDS è la definizione di misure di prossimità, le quali forniscono informazioni sulla (dis)similarità tra due unità statistiche. Tali misure di prossimità sono in effetti delle distanze.
Affinché una misura possa essere definita distanza (tra due individui A e B), è necessario che questa goda delle ben note seguenti proprietà:
Tra le distanze più note ed utilizzate nell’ambito dei modelli di MDS si ricordano la distanza Euclidea, la distanza di Manhattan (o distanza City Block), ed in generale la distanza di Minkowski, la quale a seconda del valore dell’esponente si traduce in una delle atre note distanze.
Il MDS cerca di rappresentare determinate similarità (o dissimilarità), le cosiddette prossimità pij , nelle corrispondenti distanze dij(X) di uno spazio X attraverso la specificazione di una funzione f. La particolare scelta di f specifica il modello MDS.
Un modello MDS si traduce quindi in una proposizione tale che date prossimità, dopo qualche trasformazione f, divengono “uguali” (molto simili) alle distanze tra i punti di una generica configurazione X.
La condizione molto simili viene quantificata attraverso misure di badness of fit oppure da funzioni di perdita.
Tali distanze, sono generalmente (sempre) sconosciute.
La funzione f può essere completamente specificata, oppure può essere forzatamente essere specificata da una classe di funzioni (qualche funzione esponenziale, oppure qualche funzione lineare,…).
Di norma si è soliti determinare le distanze tra ciascuna coppia di oggetti, conoscendo già le coordinate degli oggetti.
Nel MDS si verifica il contrario: si è già in possesso delle distanze che rappresentano le coppie e da tali informazioni si devono ricavare le coordinate delle posizioni dei singoli oggetti.
Supposto che i dati di partenza sono espressioni di dissimilarità, l’obiettivo è individuare un insieme di coordinate in r dimensioni (tipicamente 2 o 3), con associate le distanze che rappresentino opportunamente le dissimilarità osservate.
I modelli MDS richiedono, teoricamente, che ogni valore di prossimità debba avere una corrispondenza esatta con la distanza corrispondente. Empiricamente, però, le prossimità contengono sempre una certa quantità di noise, dovuta a imprecisioni nelle misurazioni, fluttuazioni campionarie, ecc.
In pratica i modelli MDS dovrebbero essere tali che le prossimità siano “il più possibile uguali” alle distanze piuttosto che esattamente uguali alle distanze.
Per valutare la bontà di un modello MDS si deve valutare, allora, quanto le prossimità siano uguali alle distanze attraverso una misura di errore chiamata STRESS.
La differenza quadratica tra prossimità e distanza definisce il quadrato dell’errore tra due punti della configurazione MDS.
Il raw STRESS è una misura di badness of fit che si ottiene sommando il quadrato dell’errore tra tutte le coppie i, j.
Il raw STRESS non è sempre una misura informativa in quanto dipendente dall’unità di misura con cui si raccolgono i dati.
Per ovviare a questo inconveniente, il raw STRESS può essere normalizzato dividendolo per la somma dei quadrati delle distanze di tutte le coppie i, j.
La radice quadrata dello STRESS normalizzato prende il nome di STRESS-1, ed è la misura di badness of fit più utilizzata per valutare le configurazioni MDS.
Per valutare una configurazione MDS si seguono le regole seguenti:
Il MDS cerca di preservare il concetto di “vicinanza” e la proporzionalità tra le distanze di ogni oggetto
Di norma si è soliti determinare le distanze tra ciascuna coppia di oggetti, conoscendo già le coordinate degli oggetti.
Nel MDS si verifica il contrario: si è già in possesso delle distanze che rappresentano le coppie e da tali informazioni si devono ricavare le coordinate delle posizioni dei singoli oggetti.
Supposto che i dati di partenza sono giudizi di dissimilarità, l’obiettivo è individuare un insieme di coordinate in r dimensioni (tipicamente 2 o 3), con associate le distanze che rappresentino opportunamente le dissimilarità osservate.
L’esempio che segue prevede come input le distanze (dissimilarità) tra alcune delle principali città europee. L’obiettivo è quello di rappresentare in uno spazio a due dimensioni le unità statistiche (le città) in modo tale che le distanze tra di esse siano proporzionali alle distanze reali.
Partendo dalla matrice delle distanze precedentemente introdotta, la soluzione MDS proietta le città nello spazio geometrico a due dimensioni.
Successivamente si deve interpretare la configurazione in termini di orientamento topografico.
In seguito all’orientamento topografico si possono ruotare gli assi in modo tale che il nord indichi effettivamente il nord, e così via. A proposito della rotazione, deve essere specificato che questa può essere di tipo soggettivo (come quella effettivamente eseguita nell’esempio), oppure di tipo oggettivo, cioè basata su un algoritmo matematico.
Si può constatare, sovrapponendo la carta dell’Europa alla soluzione MDS, che la proporzione delle distanze sul piano geometrico tra una determinata città e tutte le altre è effettivamente rispettata.
Per curiosità, questa analisi MDS ha restituito un valore STRESS-1 pari a 0,086 (eseguita con il software SPSS).
A seconda della scelta della funzione f circa la rappresentazione delle prossimità nelle distanze, si distingue tra MDS metrico e MDS non metrico.
Nel MDS metrico le dissimilarità sono legate alle distanze da funzioni parametriche specifiche. Tra le più note trasformazioni di MDS metrico si ricordano:
Nel MDS non metrico si dispone solo dell’ordine delle dissimilarità (rankings): in questo caso le dissimilarità devono avere lo stesso ordine delle distanze. Si distingue, in tale contesto, il primo approccio ai ties, secondo cui gli ex aequo (i ties) non possono coesistere, dal secondo approccio ai ties, secondo cui gli ex aequo possono coesistere.
Operare attraverso un modello MDS non metrico presenta il vantaggio di poter operare su dati espressi su scala ordinale.
L’Unfolding è una tecnica di MDS nata per studiare le preferenze dei consumatori e rappresentare in uno spazio geometrico simultaneamente sia i consumatori che i prodotti.
I giudizi di preferenza possono essere espressi con diverse scale di valutazione, e a fini operativi si possono individuare diverse forme di misura, come ad esempio:
L’Unfolding può essere utilizzato quando si ha una matrice di dati unità per variabili, in cui queste ultime sono espressione di un set di oggetti su cui le unità statistiche devono esprimere una preferenza.
Tecnicamente, l’Unfolding può essere visto come un caso particolare di MDS in cui alcune prossimità sono mancanti.
Nella figura in basso i rettangoli in grigio contengono i punteggi osservati nella matrice dei dati raffigurata in alto. Entrambi i rettangoli contengono gli stessi punteggi: le righe di un rettangolo coincidono con le colonne dell’altro. Si dice che in questa siffatta matrice compaiono solo le prossimità-between e non vi sono prossimità-within.
Si possono analizzare tali prossimità attraverso modelli MDS “regolari” trattando le prossimità-within come dati mancanti.
Tali modelli MDS sono un primo esempio di specificazione di modelli Unfolding.
Nello spazio MDS gli individui vengono rappresentati come “punti ideali” in modo tale che la distanza di ogni oggetto dai punti ideali è proporzionale alla preferenza espressa da ciascun individuo per il dato oggetto.
Nella figura le lettere minuscole indicano gli individui mentre le lettere maiuscole rappresentano gli oggetti.
Se si concentra l’attenzione sull‘i-mo individuo, si possono notare come esso sia il centro di una serie di cerchi tratteggiati. Qiesti ultimi possono essere interpretati come contorni di isopreferenza.
I modelli di Unfolding permettono di affermare che per l’i-mo individuo l’oggetto D è preferito agli oggetti B e C, e questi ultimi sono preferiti all’oggetto A.
A seconda della posizione nello spazio degli oggetti, è possibile inoltre interpretare le dimensioni latenti generate dal modello per poter partizionare le unità statistiche a seconda dei loro giudizi di preferenza.
1. Introduzione alla statistica per le decisioni di impresa
2. L'organizzazione dei dati statistici
3. L'analisi di regressione lineare multipla
4. I test diagnostici sulla regressione lineare multipla
5. L'uso delle variabili dicotomiche nella regressione
6. Il modello di regressione logistica
7. Modelli Additivi Generalizzati
8. Modelli lineari per l'analisi delle serie storiche
9. Modelli stocastici per l'analisi delle serie storiche
10. L'analisi delle preferenze: introduzione al Multidimensional Scaling
12. Metodi di segmentazione binaria e alberi di decisione
13. Analisi delle Componenti Principali
14. Analisi delle Corrispondenze Multiple
15. Cluster Analysis
Borg I., Groenen P. Modern Multidimensional Scaling. Springer 1997
Cox T.F., Cox A.A. Multidimensional Scaling. Chapman & Hall, 2000
Schiffman S., Reynolds R.M., Young F.W. Introduction to multidimensional scaling:Theory, Methods and Applications. Academic press, 1981