La variabilità di una distribuzione esprime la tendenza delle unità statistiche di un collettivo ad assumere diverse modalità del carattere.
In un processo mirato alla descrizione di un fenomeno, l’individuazione di un indice di posizione non può ritenersi esaustiva.
Infatti alla conoscenza della tendenza centrale si accompagna l’esigenza di descrivere quanto l’indice di posizione considerato possa ritenersi realmente rappresentativo dei valori assunti dalle unità del collettivo.
In altre parole si vuole capire quanto le modalità osservate sulla popolazione siano vicine o lontane dal “centro” della distribuzione.
In una disamina delle misure di variabilità di una distribuzione si distingue usualmente tra:
Consideriamo il seguente esempio di tre studenti che hanno superato ciascuno tre esami:
E’ facile verificare che se calcoliamo il voto medio e quello mediano per ciascun studente esso è pari a 24.
Si può affermare che i tre studenti hanno uno stesso comportamento agli esami?
Dall’esempio risulta evidente che da soli gli indici di posizione non riescono a svelare esaustivamente il “segreto” delle distribuzioni!
Una misura di variabilità V definita sulle osservazioni (x1, x2,…, xN) è tale se soddisfa i seguenti assiomi:
Assiomi per la definizione di un indice di variabilità
Gli indici di variabilità si distinguono in tre categorie.
a) Indici che misurano la variabilità rispetto ad una misura di posizione.
Questi si basano su una sintesi degli scarti delle modalità rispetto al valore centrale di riferimento (i.e, la media)
b) Indici che misurano la variabilità rispetto all’ordinamento delle modalità.
Questi si basano sulla funzione di ripartizione empirica e quindi all’ordine che assumono le modalità nella distribuzione considerata
c) Indici che misurano la variabilità reciproca tra tutte le modalità considerate due a due.
Effettuano una sintesi dell’insieme degli scostamenti tra i valori della distribuzioni considerati due per volta.
Un indice di variabilità rispetto ad un centro misura la presenza o meno di una certa stabilità dei valori assunti dalle unità rispetto alla misura di tendenza centrale.
Gli indici maggiormente diffusi si basano sul concetto di “scarto” (o scostamento) delle modalità rispetto alla media (intesa come media aritmetica).
Tra questi, si ricordano:
Scarti della media
(x1 - μ), (x2 – μ), …, (xN – μ)
… o semplicemente scarti!
L’indice più importante per esprimere la variabilità di una distribuzione rispetto a un centro è la varianza.
Essa si definisce come la media degli scarti al quadrato.
Come è facile verificare gode di tutte le caratteristiche necessarie agli indici di variabilità:
Formulazione della varianza
Distribuzione unitaria
Distribuzione di frequenza
Si definisce devianza la somma degli scarti al quadrato.
Essa è pari al numeratore della varianza.
Si definisce scarto quadratico medio (SQM) la radice della media degli scarti al quadrato.
Esso è pari alla radice quadrata della varianza.
Tra i diversi indici di variabiità rispetto ad un centro, lo SQM è quello che si presta ad una più facile interpretazione in quanto è espresso nella stessa unità di misura della variabile X.
Lo SQM può leggersi come “lo scostamento medio delle modalità della distribuzione rispetto alla media”.
Devianza
Distribuzione unitaria
Distribuzione di frequenza
Scarto quadratico medio
Distribuzione unitaria
Distribuzione di frequenza
Le misure presentate sino ad ora rappresentano degli indici di variabilità assoluta.
Essi infatti assumono valori in una scala di variazione che dipende strettamente dall’unità di misura e dall’intervallo in cui la variabile assume valori.
Ciò rende difficile il confronto tra distribuzioni diverse (si pensi alla comparazione tra la variabilità del peso dei neonati e delle mamme!!)
Per ovviare a questo problema si ricorre alla costruzione di indici di variabilità relativa.
Il più diffuso è il coefficiente di variazione (CV) che si ottiene rapportando lo SQM alla media in valore assoluto.
Il risultato è una misura proporzionale della variabilità rispetto alla media.
Il CV è indipendente dall’unità di misura, cioè è un numero puro.
Coefficiente di variazione
Sono misure di variabilità derivate dalla funzione di ripartizione empirica, attraverso l’uso dei concetti di percentili e quartili di una distribuzione.
Gli indici più utilizzati sono:
Le due misure si differenziano per il grado di robustezza.
Il range risente anche di un solo valore anomalo mentre la differenza interquartile, escludendo le code della distribuzione, è meno influenzata da valori estremi della stessa.
Campo di variazione
Differenza Inter – Quartile
La mutabilità è l’espressione della variabilità nel contesto di caratteri qualitativi.
Si parla di massima eterogenietà di una mutabile quanto tutte le modalità assumono pari frequenza assoluta o relativa (es. variabile genere: Maschi 50%, Femmine 50%).
Al contrario si parla di massima omogeneità di una mutabile quando le unità assumono tutte lo stesso attributo (es. variabile genere: Maschi 100%, Femmine 0%).
Un indice di mutabilità è l’indice di eterogenietà H di Gini.
Formulazione dell’indice di eterogeneità di Gini
In presenza di massima omogeneità
In presenza di massima eterogeneità
Nella prossima lezione si affronteranno i seguenti argomenti:
2. Caratteri statistici e scale di misura
3. Sintesi tabellare e grafica di una distribuzione statistica
6. Forma di una distribuzione statistica
7. Distribuzioni doppie di frequenza
8. Relazioni tra variabili: associazione e dipendenza in media
9. Relazioni tra variabili: Correlazione lineare
10. Interpolazione statistica e Retta di regressione
11. Elementi di calcolo delle probabilità
12. Introduzione alle variabili casuali
13. Modelli per variabili casuali discrete di uso comune
14. Modelli per variabili casuali continue di uso comune
15. Introduzione alle serie storiche
16. Approccio classico: Modello di decomposizione di una serie storica