Vai alla Home Page About me Courseware Federica Living Library Federica Federica Podstudio Virtual Campus 3D Le Miniguide all'orientamento Gli eBook di Federica La Corte in Rete
 
 
Il Corso Le lezioni del Corso La Cattedra
 
Materiali di approfondimento Risorse Web Il Podcast di questa lezione

Amalia Caputo » 10.L'analisi dei dati con variabili categoriali non ordinate


Valori caratteristici delle distribuzioni in categorie non ordinate

Per analizzare le distribuzioni di dati in categorie non ordinate è possibile ricorrere:

Misure di tendenza centrale → Moda

Misure di dispersione → Indice di Galtung (1967)

Misure di variabilità → Indici di equilibrio/squilibrio

La moda

Il valore di tendenza centrale delle distribuzioni di dati in categorie non ordinate è la MODA.

La moda è la categoria con frequenza (o percentuale) più alta ovvero È la modalità prevalente (con la frequenza più alta) nella distribuzione

Una distribuzione può presentare più mode: se ce ne sono due, viene detta bimodale; se ve ne sono più di due viene detta multimodale

Rappresentazione grafica della moda

Rappresentazione grafica della moda

Individuazione della moda: esempio

Individuazione della moda: esempio


Alcune specificità delle distribuzioni multi-modali

Distribuzione unimodale centrale
La moda cade nella categoria centrale, mentre le altre frequenze declinano gradatamente
dall’uno all’altro lato del valore centrale

Distribuzione unimodale
La moda coincide con un valore estremo della distribuzione e le altre frequenze declinano gradatamente fino all’altro estremo

Distribuzione bimodale
Le frequenze declinano da un estremo all’altro fino ai valori centrali e poi tornano a crescere andando verso l’altro estremo

Distribuzione trimodale

Distribuzioni con una moda centrale ed una in ciascuno dei valori estremi


Svantaggi dell’uso della moda come misura di tendenza centrale

  1. Una distribuzione può avere più di una moda.
  2. La moda è molto.
  3. Le fluttuazioni comportano che la moda di un campione non fornisce una buona stima della moda della popolazione da cui quel campione è stato tratto.

L’indice di dispersione di Galtung (1967)

K = numero delle categorie
Pm = proporzione dei casi nella categoria modale
K-1 = Gradi di libertà*

Pm varia da 1 a 1/k
1 = dispersione minima (i casi ricadono nella categoria modale) →I = 0
1/k = dispersione massima (i casi si equidistribuiscono tra tutte le modalità) →I= 1

Svantaggi
Rileva esclusivamente il rapporto tra la frequenza modale ed il totale dei dati, non rileva in alcun modo il grado di equilibrio/squilibrio dei dati fra le categorie non modali.

*i gradi di libertà rappresentano il numero di possibilità che i dati che compongono un campione hanno di variare liberamente. In generale si calcolano togliendo dal numero delle unità del campione il numero delle condizioni cui essi sono vincolati. Es.: dati n numeri positivi e negativi, ciascuno dei quali può assumere un valore qualsiasi ed un vincolo, ad esempio la somma deve essere 100, si può assegnare un valore qualsiasi ai primi n-1 numeri, ma l’ultimo sarà vincolato dal fatto che la somma deve essere 100, quindi in questo caso, i gradi di libertà sono n-1.


L’indice di dispersione di Galtung: esempio


Gli indici di equilibrio/squilibrio

Gli indici di equilibrio/squilibrio rilevano l’equilibrio / squilibrio tra le frequenze di tutte le categorie, ovvero come si distribuiscono le frequenze di ciascuna modalità dell’intera distribuzione.

Si basano sulla probabilità (proporzione) che, data una certa distribuzione, gli stati di due casi diversi siano assegnati alla stessa modalità. (Marradi A., 195, P.58).

Pj = Proporzione (probabilità) dei casi che cadono nella categoria j-esima


Quali sono gli indici di equilibrio/squilibrio?

  • Sq indice di squilibrio
  • Eq indice di equilibrio
  • Sqnorm indice di squilibrio normalizzato
  • Eqnorm indice di equilibrio normalizzato
  • H indice relativo di Entropia
  • M Moltepilicità

1. L’indice di Squilibrio Sq

Assunto di base: La probabilità che due dati di una distribuzione appartengono alla stessa categoria j = alla proporzione tra le frequenze di ciascuna categoria ed il totale dei casi elevata al quadrato.

INTERPRETAZIONE:
Massimo squilibrio Sq=1 i dati appartengono ad una sola modalità
Minimo squilibrio Sq= 1/k i dati si equidistribuiscono tra modalità


2. L’indice di Equilibrio Eq

L’indice di Equilibrio rileva se e quanto i dati si distribuiscono in modo equilibrato tra le modalità.

Assunto di base: probabilità che due dati di una distribuzione NON appartengono alla stessa categoria j = alla proporzione tra le frequenze di ciascuna categoria ed il totale dei casi elevata al quadrato.
Se il massimo assunto da Sq=1, per poter ricavare Eq è sufficiente calcolare il complemento ad 1 di Sq.

INTERPRETAZIONE:
Massimo squilibrio Eq=1 i dati appartengono ad una sola modalità
Minimo squilibrio Eq= 1/k i dati si equidistribuiscono tra modalità


Caratteristiche degli indici di equilibrio/squilibrio

Gli indici di equilibrio e squilibrio sono caratterizzati da tre elementi principali.

Sq è un indice parabolico: Esempio (Marradi, 1995).


3. Indice relativo di Squilibrio normalizzato

Gli indici di equilibrio/squilibrio sono sensibili al numero delle categorie, specie sul valore minimo. Per annullare l’effetto del numero delle categorie si procede ad una normalizzazione che trasforma gli indici in indici relativi (variano tra 0 ed 1)

OVVERO

Si pone Sq in rapporto con il suo minimo (1/K) ed il suo massimo (1)

INTERPRETAZIONE:
Sqnorm = 1   Massimo Squilibrio i dati  appartengono ad una modalità.
Sqnorm = 0   Minimo Squilibrio i dati si equidistribuiscono  tra le modalità


Trasformazione di Sq in Sq norm


4. Indice relativo di Equilibrio normalizzato

Per ricavare l’indice relativo di Equilibrio normalizzato, è sufficiente calcolare il complemento ad 1 dell’indice relativo Sq

OVVERO

Sottrarre ad 1 Sq
INTERPRETAZIONE:

Eqnorm = 1 Massimo Equilibrio (i dati si equidistribuiscono)
Eqnorm = 0 Minimo Equilibrio (i dati si concentrano in una mod.)


5. Indice relativo di entropia – H

INTERPRETAZIONE:
H=0 massimo squilibrio
H=1 minimo squilibrio
se la variabile è dicotomica 0<1
se la variabile non è dicotomica H può assumere anche valori superiori ad 1


6. Incide di molteplicità – M

M = 1/k massimo equilibrio
M= 1 massimo squilibrio

Note

  • E’ detto produttoria;
  • Indica il prodotto di una serie di moltiplicandi designati da un simbolo comune;
  • Le lettere che stanno sopra e sotto indicano che si devono moltiplicare tutti i p elevati a p relativi a ciascuna categoria K

I materiali di supporto della lezione

Marradi A., L'analisi monovariata, Milano, Franco Angeli, 1995.

Marradi A., Linee guida per l'analisi bivariata dei dati nelle scienze sociali, Milano, Franco Angeli, 1997.

Corbetta P., La ricerca sociale: metodologia e tecniche, vol. IV, Bologna, Il Mulino, 2003.

  • Contenuti protetti da Creative Commons
  • Feed RSS
  • Condividi su FriendFeed
  • Condividi su Facebook
  • Segnala su Twitter
  • Condividi su LinkedIn
Progetto "Campus Virtuale" dell'Università degli Studi di Napoli Federico II, realizzato con il cofinanziamento dell'Unione europea. Asse V - Società dell'informazione - Obiettivo Operativo 5.1 e-Government ed e-Inclusion