Home

Federica EU

1/23

Amalia Caputo » 13.Introduzione all'analisi dei dati con variabili cardinali

Distribuzioni di dati con variabili cardinali

Le singole categorie delle variabili cardinali
non hanno alcuna autonomia semantica

↓

Diviene, quindi rilevante, l’andamento globale dell’intera distribuzione.
È comunque possibile ottenere una distribuzione con un numero molto alto di modalità.

Valori caratteristici

I valori caratteristici delle distribuzioni di dati con variabili cardinali devono tener conto:

delle frequenze di tutte le modalità della distribuzione;
del valore “cardinale” delle etichette.

Possiamo ritenere che tutti i valori caratteristici che concernono esclusivamente le variabili cardinali sono valori sintetici, in quanto sono determinati sulla base delle frequenze di tutte le modalità e del valore cardinale delle relative etichette numeriche.

I valori caratteristici delle variabili cardinali si distinguono in:

Valori di tendenza centrale;
Valori di dispersione.

I valori di tendenza centrale

Le misure di tendenza centrale che si possono applicare alle variabili cardinali sono anche quelle che si applicano alle variabili categoriali.

Questo perché – come detto nelle precedenti lezioni – le tecniche d’analisi che si possono applicare alle variabili sono cumulative:

Moda
Mediana
Quantili
Midrange
Media aritmetica

1. La moda

La moda rappresenta la categoria con la frequenza più alta.

Esempio: si voglia calcolare la moda nella distribuzione di frequenza della variabile età di una classe di primo anno del liceo.

2. La mediana

La mediana di una distribuzione è la modalità del caso che lascia dietro di sé il 50% della distribuzione.

Se N è dispari c’è un unico caso centrale:

$Me=\frac{N+1}2$

Se N è pari ci sono due casi centrali che potrebbero generare una distribuzione bimodale qualora i due casi ricadessero in due categorie differenti e la formula è la seguente:

$Me=\frac N 2$

$Me=\frac N 2 + 1$

Individuazione della mediana per distribuzioni con variabili cardinali

Calcolo della mediana a partire dalle frequenze (tabella A)

N = 22 (pari)
mediana = 22/2 = 11°
mediana = 22/2+1 = 12°

La Md è costituita dai casi che occupano l’11° e il 12° posto nella sequenza ordinata delle frequenze, cioè è 15.

Calcolo della mediana a partire dai casi (tabella B)

N = 4 (pari)
mediana = 4/2 = 2°
mediana = 4/2+1 = 3°

La Md è costituita dai casi che occupano il 2° e il 3°posto nella sequenza ordinata dei casi, cioè cade tra Caio e Tizio (15 e 16 anni).

Tabella A

Tabella B

3. I quantili

Con lo stesso criterio è possibile individuare anche i QUANTILI.
(decili, quartili e percentili-cfr lezione n.12).

4. La media

La media è il valore che rappresenta la ripartizione di una variabile cardinale tra le unità del collettivo. Si ottiene sommando i valori di tutte le osservazioni presenti nel collettivo e dividendo il totale così ottenuto per il numero di osservazioni.

$\bar x= \frac{\sum X_i}N$

Esempio: Si voglia calcolare l’età media di un nucleo familiare composto da 5 membri.

La media ponderata

Quando i dati sono organizzati in una distribuzione di frequenza oppure sono raggruppati in classi, ciascuna frequenza rappresenta il “peso” di ciascun valore X_i; in questi casi per individuare la media è necessario ponderare pesare (ponderare) le X_i associate a ciascuna frequenza.

In questi casi si parla di media ponderata

$\bar x=\frac{\sum x_if_i}{\sum f_i}$

Dove:
n = numero dei valori distinti di X_i
f_i = frequenza (peso) di ciascun valore X_i

La media ponderata: distribuzione di frequenza

Esempio 1:

Si voglia calcolare la media ponderata dei voti riportati da 40 studenti all’esame di Tecniche di ricerca sociale (N=40).

La media ponderata: Dati raggruppati in classe

Esempio: Si voglia calcolare la media ponderata dei voti riportati all'esame di maturità da alcuni studenti.

5. Il midrange

Altra misura di tendenza centrale che possiamo applicare alle variabili cardinali è il midrange.

Midrange= (valore minimo + valore massimo)/2

A cosa serve?
Questo valore sintetico ci permette di valutare rapidamente il grado di asimmetria di una distribuzione.

Se la mediana<midrange allora l’asimmetria sarà positiva.
Se la mediana>midrange allora l’asimmetria sarà negativa.

Midrange: esempio

Calcolo del Midrange nella distribuzione A

Valore max= 29;
Valore min = 25
Midrange=(25 + 29)/2=27 anni

Calcolo del Midrange nella distribuzione B

Valore max= 29;
Valore min = 25
Midrange=(25 + 29)/2=27 anni

Distribuzione A

Distribuzione B

Il concetto di dispersione

Esempio: Le due distribuzioni rappresentate di seguito hanno la stessa media ma dispersioni diverse: la prima è certamente meno dispersa rispetto alla seconda.

I valori di dispersione

Scarto
Scarto Medio assoluto
Intervallo di variazione
Campo di variazione o Range
Lo Scarto medio interquartile (Galton, 1875)
Le Differenze medie assolute (Leti,1983)
Differenza semplice media

1. Scarto dalla media

I valori di dispersione rilevano quanto la distribuzione è dispersa dai valori centrali.

Scarto dalla media

$X_i-\bar X \Longrightarrow x_i$

dove x_i è una forma contratta per indicare lo scarto dalla media.

Lo scarto, detto anche scostamento o deviation rappresenta la distanza di un valore dalla media aritmetica della distribuzione.

Se X_i > X lo scarto avrà segno positivo
Se X_i < X lo scarto avrà segno negativo.

La somma degli scarti dalla media è sempre UGUALE a 0.

2. Scarto Medio Assoluto o Scostamento Semplice Medio

3. Intervallo di variazione

|val.min-val.max|

Calcolo del Range nella distribuzione A (N=5)
Valore max= 29;
Valore min = 25
IV= |25 – 29| = 4 anni

Calcolo del Range nella distribuzione B (N=100)
Valore max= 40;
Valore min = 10
IV= |25-29| = 4 anni

Distribuzione A

Distribuzione B

4. Campo di variazione o range

|CV = Valmax – Valmin|

Indica l’intervallo di valori entro cui è raccolta la distribuzione di frequenza.

Calcolo del Range nella distribuzione A
Valore max= 29;
Valore min = 25
Range= 29 – 25 = 4 anni

Calcolo del Range nella distribuzione B
Valore max= 29
Valore min = 25
Range= 29 – 25 = 4 anni

Distribuzione A

Distribuzione B

Altri valori di dispersione

5. Lo Scarto (medio) interquartile (Galton).
Lo scarto interquartile detto anche quartile deviation rappresenta la metà della differenza tra il primo e il terzo quartile.

$\frac{\text {I quartile - III quartile}}2$