Home

Federica EU

1/13

Massimo Aria » 5.Misure di variabilità

Variabilità

La variabilità di una distribuzione esprime la tendenza delle unità statistiche di un collettivo ad assumere diverse modalità del carattere.

In un processo mirato alla descrizione di un fenomeno, l’individuazione di un indice di posizione non può ritenersi esaustiva.

Infatti alla conoscenza della tendenza centrale si accompagna l’esigenza di descrivere quanto l’indice di posizione considerato possa ritenersi realmente rappresentativo dei valori assunti dalle unità del collettivo.

In altre parole si vuole capire quanto le modalità osservate sulla popolazione siano vicine o lontane dal “centro” della distribuzione.

In una disamina delle misure di variabilità di una distribuzione si distingue usualmente tra:

dispersione rispetto ad un centro
mutevolezza delle frequenze
dispersione reciproca

Un esempio esplicativo

Consideriamo il seguente esempio di tre studenti che hanno superato ciascuno tre esami:

$\left\{\begin{array}{lll} A\hspace{1cm} 18\hspace{1cm} 24\hspace{1cm} 30 \\ B\hspace{1cm} 23\hspace{1cm} 24\hspace{1cm} 25 \\ C\hspace{1cm} 24\hspace{1cm} 24\hspace{1cm} 24 \end{array}$

E’ facile verificare che se calcoliamo il voto medio e quello mediano per ciascun studente esso è pari a 24.

Si può affermare che i tre studenti hanno uno stesso comportamento agli esami?

Dall’esempio risulta evidente che da soli gli indici di posizione non riescono a svelare esaustivamente il “segreto” delle distribuzioni!

Indice di variabilità

Una misura di variabilità V definita sulle osservazioni (x₁, x₂,…, x_N) è tale se soddisfa i seguenti assiomi:

l’indice V è non negativo
l’indice V è nullo quando le unità assumono tutte la stessa modalità
l’indice V non muta quando a tutte le modalità è aggiunta (o sottratta) una costante
se V(X)>V(Y) allora X è più variabile di Y
l’indice V aumenta al crescere della variabilità

Assiomi per la definizione di un indice di variabilità

V(x₁, x₂, …, x_N) ≥ 0
V(c, c, …, c) = 0
V(x₁ + c,x₂ + c, …, x_N + c) = V(x₁, x₂, …, x_N)
V(x₁, x₂, …, x_N) ≥ V (y1, y2, …, yM) X più variabile di Y

Tipologia di indici di variabilità

Gli indici di variabilità si distinguono in tre categorie.

a) Indici che misurano la variabilità rispetto ad una misura di posizione.
Questi si basano su una sintesi degli scarti delle modalità rispetto al valore centrale di riferimento (i.e, la media)

b) Indici che misurano la variabilità rispetto all’ordinamento delle modalità.
Questi si basano sulla funzione di ripartizione empirica e quindi all’ordine che assumono le modalità nella distribuzione considerata

c) Indici che misurano la variabilità reciproca tra tutte le modalità considerate due a due.
Effettuano una sintesi dell’insieme degli scostamenti tra i valori della distribuzioni considerati due per volta.

Variabilità rispetto a un centro

Un indice di variabilità rispetto ad un centro misura la presenza o meno di una certa stabilità dei valori assunti dalle unità rispetto alla misura di tendenza centrale.

Gli indici maggiormente diffusi si basano sul concetto di “scarto” (o scostamento) delle modalità rispetto alla media (intesa come media aritmetica).

Tra questi, si ricordano:

la varianza
la devianza
lo scarto quadratico medio
lo scostamento semplice dalla media

Scarti della media

(x₁ - μ), (x₂ – μ), …, (x_N – μ)

… o semplicemente scarti!

Varianza

L’indice più importante per esprimere la variabilità di una distribuzione rispetto a un centro è la varianza.

Essa si definisce come la media degli scarti al quadrato.

Come è facile verificare gode di tutte le caratteristiche necessarie agli indici di variabilità:

é una misura non negativa
cresce al crescere della misura degli scarti e quindi della variabilità della distribuzione
é nulla se le unità assumono tutte lo stesso valore (variabile degenere).
se si aggiunge una costante a tutte le osservazione, la misura degli scarti non cambia e quindi la varianza resta immutata

Formulazione della varianza

Distribuzione unitaria

$\sigma^2=\frac 1 N\sum_{l=1}^N(x_l-\mu)^2$

Distribuzione di frequenza

$\sigma^2=\frac 1{\sum n_i}\sum_{i=1}^K(x_i-\mu)^2n_i$

Devianza e Scarto quadratico medio

Si definisce devianza la somma degli scarti al quadrato.

Essa è pari al numeratore della varianza.

Si definisce scarto quadratico medio (SQM) la radice della media degli scarti al quadrato.

Esso è pari alla radice quadrata della varianza.

Tra i diversi indici di variabiità rispetto ad un centro, lo SQM è quello che si presta ad una più facile interpretazione in quanto è espresso nella stessa unità di misura della variabile X.

Lo SQM può leggersi come “lo scostamento medio delle modalità della distribuzione rispetto alla media”.

Devianza e Scarto quadratico medio

Devianza

Distribuzione unitaria

$SS=\sum_{l=1}^N (x_l-\mu)^2$

Distribuzione di frequenza

$SS=\sum_{i=1}^K(x_i-\mu)^2\cdot n_i$

Scarto quadratico medio

Distribuzione unitaria

$\sigma=\sqrt{\frac 1 N \sum_{l=1}^N(x_l-\mu)^2}=\sqrt{\sigma^2}$

Distribuzione di frequenza

$\sigma=\sqrt{\frac 1 {\sum n_i}\sum_{i=1}^K(x_i-\mu)^2\cdot n_i}=\sqrt{\sigma^2}$

Coefficiente di variazione

Le misure presentate sino ad ora rappresentano degli indici di variabilità assoluta.

Essi infatti assumono valori in una scala di variazione che dipende strettamente dall’unità di misura e dall’intervallo in cui la variabile assume valori.

Ciò rende difficile il confronto tra distribuzioni diverse (si pensi alla comparazione tra la variabilità del peso dei neonati e delle mamme!!)

Per ovviare a questo problema si ricorre alla costruzione di indici di variabilità relativa.

Il più diffuso è il coefficiente di variazione (CV) che si ottiene rapportando lo SQM alla media in valore assoluto.
Il risultato è una misura proporzionale della variabilità rispetto alla media.

Il CV è indipendente dall’unità di misura, cioè è un numero puro.

Coefficiente di variazione

$CV = \frac\sigma{|\mu|}\cdot 100 \hspace{1cm}\text{ con }\mu\neq 0$

Indici di variabilità delle modalità ordinate

Sono misure di variabilità derivate dalla funzione di ripartizione empirica, attraverso l’uso dei concetti di percentili e quartili di una distribuzione.

Gli indici più utilizzati sono:

il campo di variazione (range) R(X): è definito come differenza tra il valore massimo (100° percentile) e minimo (1° percentile) della distribuzione.
la differenza inter-quartile IQR(X): è definita come differenza tra il terzo e il primo quartile della distribuzione.

Le due misure si differenziano per il grado di robustezza.
Il range risente anche di un solo valore anomalo mentre la differenza interquartile, escludendo le code della distribuzione, è meno influenzata da valori estremi della stessa.

Campo di variazione

$R(X)=x_{max}-x_{min}$

Differenza Inter – Quartile

$IQR(X)=Q_3-Q_1$

Un esempio di calcolo degli indici di variabilità

Mutabilità

La mutabilità è l’espressione della variabilità nel contesto di caratteri qualitativi.

Si parla di massima eterogenietà di una mutabile quanto tutte le modalità assumono pari frequenza assoluta o relativa (es. variabile genere: Maschi 50%, Femmine 50%).

Al contrario si parla di massima omogeneità di una mutabile quando le unità assumono tutte lo stesso attributo (es. variabile genere: Maschi 100%, Femmine 0%).

Un indice di mutabilità è l’indice di eterogenietà H di Gini.

Formulazione dell’indice di eterogeneità di Gini