Home

Federica EU

1/13

Amalia Caputo » 11.Introduzione all'analisi delle distribuzioni di dati con variabili categoriali ordinate

Caratteristiche delle variabili categoriali ordinate

Le distribuzioni di dati con variabili categoriali ordinate hanno tre caratteristiche:

Le categorie posseggono un numero finito di stati ordinabili lungo un continuum
Le categorie ordinate e i rispettivi valori numerici sono in relazione monotonica tra loro
Le categorie hanno una ridotta autonomia semantica

I caratteristica

Le categorie posseggono un numero finito di stati ordinabili lungo un continuum

II caratteristica

Le categorie ordinate e i rispettivi valori numerici sono in relazione monotonica tra loro.

La relazione monotonica implica che siano soddisfatte due condizioni: data una serie …

1. … Se l’elemento a è maggiore dell’elemento b, lo è anche nell’altra, (Relazione monotonica diretta);

X_a >X_b allora Y_a≥Y_b

2. … Se l’elemento a è maggiore dell’elemento b, l’elemento a è minore dell’elemento b nell’altra

se X_a>X_b allora Y_a≤ Y_b

Questo riportato in termini concreti all’analisi dei dati implica che se alla modalità “nessun titolo” (X_a) attribuiamo l’etichetta numerica “0″ (Y_a) alla modalità “licenza elementare” (X_b) dovremo attribuire il valore numerico “1″ (Y_b).

Il vincolo di monotonicità: esempio

III Caratteristica

Le categorie hanno una ridotta autonomia semantica

La ridotta autonomia semantica delle categorie ordinate rispetto alle categorie non ordinate implica che

le frequenze di ciascuna categoria devono essere interpretate tenendo presente l’intera distribuzione e le modalità non possano essere interpretate senza considerare l’etichetta della variabile.

↓

Minore è l’autonomia semantica delle singole categorie più il centro semantico si sposta dalla categoria isolata alla successione delle categorie e all’intera variabile

La ridotta autonomia semantica

Tre conseguenze della ridotta autonomia semantica

1. Ricorso alle frequenze percentuali cumulate/retro cumulate

Se il centro semantico si sposta dalla categoria isolata alla successione delle categorie e all’intera variabile, allora è necessario ricorrere alle percentuali cumulate e/o retro-cumulate.

Le cumulate di una categoria indicano quanti casi non arrivano alla categoria successiva;

Le retro-cumulate di una categoria indicano quanti casi arrivano a quella categoria e alle precedenti.

COME SI INTERPRETANO?

Cumulate: Piccola borgh.= il 75% dei casi non ricade nella classe operaia.
Retro-cumulate: Piccola borgh. = il 55% dei casi ricade nella categoria piccola borghesia e classe operaia.

Calcolo delle frequenze % cumulate e retro-cumulate.

Interpretazione delle frequenze cumulate e retro cumulate

Se confrontiamo le frequenze percentuali dei titoli di studio dei paesi A e B si giunge alla conclusione che:

I due paesi hanno lo stesso numero di soggetti con licenza media superiore;
nel paese B gli individui sono più istruiti (45% di laureati vs. il 7% del paese A).

Paese A

Paese B

Dicotomie particolari

Quando la variabile è dicotomica categoriale è possibile trasformarla in variabile dicotomica ordinale riconcettualizzando la variabile originaria:
Es.: Variabile dicotomica categoriale
Genere: Maschio = 1 Femmina = 0

Variabile dicotomica ordinale_ Appartenenza al genere maschile o meno

Quando si intende analizzare le variabili categoriali (dicotomiche o no) con tecniche cardinali è possibile trasformarla in dummy variables (variabile fantoccio) riconcettualizzando le singole modalità in variabili categoriali: si otterranno tante variabili quante sono le modalità della variabile originaria (k) meno 1.

Es.: Variabile categoriale Provincia di residenza K = 4
Avellino = 1 ………→ Benevento = 2
Caserta = 3 .……… →Napoli = 4

Dummy variables K – 1 = 3
→Avellino ……… Si = 1……… No = 0
→Benevento ……Si = 1 ………No = 0
→Caserta……….. SI = 1 ………No = 0

Le rappresentazioni grafiche

Le rappresentazioni grafiche per distribuzioni di dati in categorie ordinate si basano tutte sull’Istogramma; in questo caso deve essere rispettato l’ordine semantico delle categorie.

Per rispettare la contiguità delle categorie e rappresentare la “dipendenza tra loro, le barre, i nastri o le colonne, a differenza di quanto deve essere fatto per le categoriali non ordinate, devono essere uniti. Per questo motivo sono da evitare le rappresentazioni circolari.

Diagramma a bandiera

Il diagramma a bandiera è utilizzabile per ogni tipo di variabile (preferibile ordinale o cardinale).
E’ molto indicato qualora si voglia confrontare la distribuzione di frequenza di una variabile in due sottopopolazioni diverse (es. genere).

Istogramma di composizione o mosaic bar

L’altezza dell’istogramma è proporzionale al totale dei casi o, nel caso si utilizzano le %, al 100%. E’ composto da una serie di rettangoli anch’essi di altezza proporzionale alle frequenze (%) della categoria a cui si riferiscono.

Spezzata a gradini

Questo tipo di grafico viene utilizzato quando si vuole dare una rappresentazione grafica delle percentuali o delle frequenze cumulate di una variabile almeno ordinale.