Vai alla Home Page About me Courseware Federica Living Library Federica Federica Podstudio Virtual Campus 3D La Corte in Rete
 
Il Corso Le lezioni del Corso La Cattedra
 
Materiali di approfondimento Risorse Web Il Podcast di questa lezione

Roberta Siciliano » 10.L'analisi delle preferenze: introduzione al Multidimensional Scaling


Multidimensional Scaling

Il Multidimensional Scaling (MDS) è una tecnica per l’analisi di dati espressione di (dis)similarità su di un set di oggetti. In sostanza tale tecnica identifica un insieme di procedure per l’analisi di una o più matrici di indici di prossimità tra tutte le possibili coppie di n unità statistiche sulle quali sono misurate p caratteristiche.

Gli oggetti (o le caratterristiche) possono essere di diversa natura, come

  • Ratings o similarità su candidati politici
  • Indici di commercio per un set di Paesi
  • Correlazioni tra items
  • Ranghi di preferenza

Il MDS cerca di modellare tali dati come distanze tra punti in uno spazio geometrico, individuando uno spazio r-dimensionale X(r<p)che rappresenti le coordinate degli n punti in uno spazio di dimensione inferiore , attraverso cioè r dimensioni latenti.

Da X è possibile costruire una nuova matrice di distanze tra gli n punti in r dimensioni; i punti nello spazio r-dimensionale rappresentano gli n soggetti in modo tale che per ogni dimensione le distanze dij costruite nel nuovo spazio di dimensione ridotta riproducano più fedelmente possibile le distanze-dissimilarità grezze.

Concetto di prossimità e di distanza

Il punto di partenza di una analisi di MDS è la definizione di misure di prossimità, le quali forniscono informazioni sulla (dis)similarità tra due unità statistiche. Tali misure di prossimità sono in effetti delle distanze.

Affinché una misura possa essere definita distanza (tra due individui A e B), è necessario che questa goda delle ben note seguenti proprietà:

  • Non negatività
  • Simmetria
  • Disuguaglianza triangolare

Tra le distanze più note ed utilizzate nell’ambito dei modelli di MDS si ricordano la distanza Euclidea, la distanza di Manhattan (o distanza City Block), ed in generale la distanza di Minkowski, la quale a seconda del valore dell’esponente si traduce in una delle atre note distanze.

Proprietà delle distanze.

Proprietà delle distanze.

Distanza euclidea e distanza di Minkowski.

Distanza euclidea e distanza di Minkowski.


Funzionamento del MDS

Il MDS cerca di rappresentare determinate similarità (o dissimilarità), le cosiddette prossimità pij , nelle corrispondenti distanze dij(X) di uno spazio X attraverso la specificazione di una funzione f. La particolare scelta di f specifica il modello MDS.

Un modello MDS si traduce quindi in una proposizione tale che date prossimità, dopo qualche trasformazione f, divengono “uguali” (molto simili) alle distanze tra i punti di una generica configurazione X.
La condizione molto simili viene quantificata attraverso misure di badness of fit oppure da funzioni di perdita.
Tali distanze, sono generalmente (sempre) sconosciute.
La funzione f può essere completamente specificata, oppure può essere forzatamente essere specificata da una classe di funzioni (qualche funzione esponenziale, oppure qualche funzione lineare,…).

La funzione rappresentativa f specifica come le prossimità sono legate alle distanze.

La funzione rappresentativa f specifica come le prossimità sono legate alle distanze.

Generica specificazione di un modello MDS.

Generica specificazione di un modello MDS.


Valutazione delle configurazioni MDS

Di norma si è soliti determinare le distanze tra ciascuna coppia di oggetti, conoscendo già le coordinate degli oggetti.
Nel MDS si verifica il contrario: si è già in possesso delle distanze che rappresentano le coppie e da tali informazioni si devono ricavare le coordinate delle posizioni dei singoli oggetti.
Supposto che i dati di partenza sono espressioni di dissimilarità, l’obiettivo è individuare un insieme di coordinate in r dimensioni (tipicamente 2 o 3), con associate le distanze che rappresentino opportunamente le dissimilarità osservate.

I modelli MDS richiedono, teoricamente, che ogni valore di prossimità debba avere una corrispondenza esatta con la distanza corrispondente. Empiricamente, però, le prossimità contengono sempre una certa quantità di noise, dovuta a imprecisioni nelle misurazioni, fluttuazioni campionarie, ecc.

In pratica i modelli MDS dovrebbero essere tali che le prossimità siano “il più possibile uguali” alle distanze piuttosto che esattamente uguali alle distanze.

Per valutare la bontà di un modello MDS si deve valutare, allora, quanto le prossimità siano uguali alle distanze attraverso una misura di errore chiamata STRESS.

Funzionamento del MDS: Classical Scaling

Algoritmo Classical Scaling.

Algoritmo Classical Scaling.


Valutazione del MDS: STRESS

La differenza quadratica tra prossimità e distanza definisce il quadrato dell’errore tra due punti della configurazione MDS.

Il raw STRESS è una misura di badness of fit che si ottiene sommando il quadrato dell’errore tra tutte le coppie i, j.

Il raw STRESS non è sempre una misura informativa in quanto dipendente dall’unità di misura con cui si raccolgono i dati.

Per ovviare a questo inconveniente, il raw STRESS può essere normalizzato dividendolo per la somma dei quadrati delle distanze di tutte le coppie i, j.

La radice quadrata dello STRESS normalizzato prende il nome di STRESS-1, ed è la misura di badness of fit più utilizzata per valutare le configurazioni MDS.

Per valutare una configurazione MDS si seguono le regole seguenti:

  • STRESS < 0,200: scarso
  • STRESS < 0,100: ragionevole
  • STRESS < 0,050: buono
  • STRESS < 0,025: eccellente
  • STRESS = 0,000: perfetto
Errore, STRESS, STRESS normalizzato e STRESS-1.

Errore, STRESS, STRESS normalizzato e STRESS-1.


MDS e proporzionalità delle distanze

Il MDS cerca di preservare il concetto di “vicinanza” e la proporzionalità tra le distanze di ogni oggetto

Di norma si è soliti determinare le distanze tra ciascuna coppia di oggetti, conoscendo già le coordinate degli oggetti.

Nel MDS si verifica il contrario: si è già in possesso delle distanze che rappresentano le coppie e da tali informazioni si devono ricavare le coordinate delle posizioni dei singoli oggetti.

Supposto che i dati di partenza sono giudizi di dissimilarità, l’obiettivo è individuare un insieme di coordinate in r dimensioni (tipicamente 2 o 3), con associate le distanze che rappresentino opportunamente le dissimilarità osservate.

L’esempio che segue prevede come input le distanze (dissimilarità) tra alcune delle principali città europee. L’obiettivo è quello di rappresentare in uno spazio a due dimensioni le unità statistiche (le città) in modo tale che le distanze tra di esse siano proporzionali alle distanze reali.

Carta geografica dell’Europa.

Carta geografica dell'Europa.

Distanza tra alcune delle principali città europee.

Distanza tra alcune delle principali città europee.


Esempio: città europee

Partendo dalla matrice delle distanze precedentemente introdotta, la soluzione MDS proietta le città nello spazio geometrico a due dimensioni.

Successivamente si deve interpretare la configurazione in termini di orientamento topografico.

Configurazione iniziale MDS.

Configurazione iniziale MDS.

Interpretazione dei punti.

Interpretazione dei punti.


Esempio: città europee

In seguito all’orientamento topografico si possono ruotare gli assi in modo tale che il nord indichi effettivamente il nord, e così via. A proposito della rotazione, deve essere specificato che questa può essere di tipo soggettivo (come quella effettivamente eseguita nell’esempio), oppure di tipo oggettivo, cioè basata su un algoritmo matematico.

Si può constatare, sovrapponendo la carta dell’Europa alla soluzione MDS, che la proporzione delle distanze sul piano geometrico tra una determinata città e tutte le altre è effettivamente rispettata.

Per curiosità, questa analisi MDS ha restituito un valore STRESS-1 pari a 0,086 (eseguita con il software SPSS).

Rotazione degli assi.

Rotazione degli assi.

Sovrapposizione dei punti (in rosso sono indicate le posizioni reali).

Sovrapposizione dei punti (in rosso sono indicate le posizioni reali).


MDS metrico e non metrico

A seconda della scelta della funzione f circa la rappresentazione delle prossimità nelle distanze, si distingue tra MDS metrico e MDS non metrico.

Nel MDS metrico le dissimilarità sono legate alle distanze da funzioni parametriche specifiche. Tra le più note trasformazioni di MDS metrico si ricordano:

  • Interval (transformation) MDS
  • Ratio (transformation) MDS
  • Spline (transformation) MDS

Nel MDS non metrico si dispone solo dell’ordine delle dissimilarità (rankings): in questo caso le dissimilarità devono avere lo stesso ordine delle distanze. Si distingue, in tale contesto, il primo approccio ai ties, secondo cui gli ex aequo (i ties) non possono coesistere, dal secondo approccio ai ties, secondo cui gli ex aequo possono coesistere.
Operare attraverso un modello MDS non metrico presenta il vantaggio di poter operare su dati espressi su scala ordinale.

MDS metrico: principali trasformazioni.

MDS metrico: principali trasformazioni.

Specificazione del MDS non metrico.

Specificazione del MDS non metrico.


Multidimensional Unfolding: cenni

L’Unfolding è una tecnica di MDS nata per studiare le preferenze dei consumatori e rappresentare in uno spazio geometrico simultaneamente sia i consumatori che i prodotti.

I giudizi di preferenza possono essere espressi con diverse scale di valutazione, e a fini operativi si possono individuare diverse forme di misura, come ad esempio:

  • Per posizione (o ranghi)
  • Per valutazione su scale
  • Paired comparison rankings (per comparazione tra coppie)
  • Ratings

Nozioni di base per modelli Unfolding

L’Unfolding può essere utilizzato quando si ha una matrice di dati unità per variabili, in cui queste ultime sono espressione di un set di oggetti su cui le unità statistiche devono esprimere una preferenza.

Tecnicamente, l’Unfolding può essere visto come un caso particolare di MDS in cui alcune prossimità sono mancanti.
Nella figura in basso i rettangoli in grigio contengono i punteggi osservati nella matrice dei dati raffigurata in alto. Entrambi i rettangoli contengono gli stessi punteggi: le righe di un rettangolo coincidono con le colonne dell’altro. Si dice che in questa siffatta matrice compaiono solo le prossimità-between e non vi sono prossimità-within.

Si possono analizzare tali prossimità attraverso modelli MDS “regolari” trattando le prossimità-within come dati mancanti.
Tali modelli MDS sono un primo esempio di specificazione di modelli Unfolding.

Struttura dei dati normalmente analizzati attraverso l’Unfolding.

Struttura dei dati normalmente analizzati attraverso l'Unfolding.

Visione schematica della matrice delle prossimità per i dati della precedente tabella.

Visione schematica della matrice delle prossimità per i dati della precedente tabella.


Unfolding: interpretazione dello spazio geometrico

Nello spazio MDS gli individui vengono rappresentati come “punti ideali” in modo tale che la distanza di ogni oggetto dai punti ideali è proporzionale alla preferenza espressa da ciascun individuo per il dato oggetto.

Nella figura le lettere minuscole indicano gli individui mentre le lettere maiuscole rappresentano gli oggetti.
Se si concentra l’attenzione sull‘i-mo individuo, si possono notare come esso sia il centro di una serie di cerchi tratteggiati. Qiesti ultimi possono essere interpretati come contorni di isopreferenza.
I modelli di Unfolding permettono di affermare che per l’i-mo individuo l’oggetto D è preferito agli oggetti B e C, e questi ultimi sono preferiti all’oggetto A.

A seconda della posizione nello spazio degli oggetti, è possibile inoltre interpretare le dimensioni latenti generate dal modello per poter partizionare le unità statistiche a seconda dei loro giudizi di preferenza.

Possibile rappresentazione di un modello unfolding

Possibile rappresentazione di un modello unfolding


I materiali di supporto della lezione

Borg I., Groenen P. Modern Multidimensional Scaling. Springer 1997

Cox T.F., Cox A.A. Multidimensional Scaling. Chapman & Hall, 2000

Schiffman S., Reynolds R.M., Young F.W. Introduction to multidimensional scaling:Theory, Methods and Applications. Academic press, 1981

  • Contenuti protetti da Creative Commons
  • Feed RSS
  • Condividi su FriendFeed
  • Condividi su Facebook
  • Segnala su Twitter
  • Condividi su LinkedIn
Progetto "Campus Virtuale" dell'Università degli Studi di Napoli Federico II, realizzato con il cofinanziamento dell'Unione europea. Asse V - Società dell'informazione - Obiettivo Operativo 5.1 e-Government ed e-Inclusion

Fatal error: Call to undefined function federicaDebug() in /usr/local/apache/htdocs/html/footer.php on line 93