La variabilità di una distribuzione esprime la tendenza delle unità statistiche di un collettivo ad assumere diverse modalità del carattere.
In un processo mirato alla descrizione di un fenomeno, l’individuazione di un indice di posizione non può ritenersi esaustivo.
Infatti alla conoscenza della tendenza centrale si accompagna l’esigenza di descrivere quanto l’indice di posizione considerato possa ritenersi realmente rappresentativo dei valori assunti dalle unità del collettivo.
In altre parole si vuole capire quanto le modalità osservate sulla popolazione siano vicine o lontane dal “centro” della distribuzione.
In una disamina delle misure di variabilità di una distribuzione si distingue usualmente tra:
Una misura di variabilità V definita sulle osservazioni (x1, x2,…, xN) è tale se soddisfa i seguenti assiomi:
Gli indici di variabilità si distinguono in tre categorie:
a) Indici che misurano la variabilità rispetto ad una misura di posizione.
Questi si basano su una sintesi degli scarti delle modalità rispetto al valore centrale di riferimento (i.e, la media)
b) Indici che misurano la variabilità rispetto all’ordinamento delle modalità.
Questi si basano sulla funzione di ripartizione empirica e quindi all’ordine che assumono le modalità nella distribuzione considerata
c) Indici che misurano la variabilità reciproca tra tutte le modalità considerate due a due.
Effettuano una sintesi dell’insieme degli scostamenti tra i valori della distribuzioni considerati due per volta.
Un indice di variabilità rispetto ad un centro misura la presenza o meno di una certa stabilità dei valori assunti dalle unità rispetto alla misura di tendenza centrale.
Gli indici maggiormente diffusi si basano sul concetto di “scarto” (o scostamento) delle modalità rispetto alla media (intesa come media aritmetica).
Tra questi, si ricordano:
L’indice più importante per esprimere la variabilità di una distribuzione rispetto a un centro è la varianza.
Essa si definisce come la media degli scarti al quadrato.
Come è facile verificare gode di tutte le caratteristiche necessarie agli indici di variabilità:
Si definisce devianza la somma degli scarti al quadrato.
Essa è pari al numeratore della varianza.
Si definisce scarto quadratico medio (sqm) la radice della media degli scarti al quadrato.
Esso è pari alla radice quadrata della varianza.
Tra i tre indici, lo SQM è quello che si presta a più facile interpretazione in quanto espresso nella stessa unità di misura della variabile X.
Lo SQM può leggersi come “lo scostamento medio delle modalità della distribuzione rispetto alla media“.
Si definisce scostamento semplice dalla media S(M) la media degli scarti in valore assoluto dalla media.
Si definisce scostamento semplice dalla mediana S(Me) la media degli scarti in valore assoluto dalla mediana.
Le misure presentate sino ad ora rappresentano degli indici di variabilità assoluta.
Essi infatti assumono valori in una scala di variazione che dipende strettamente dall’unità di misura e dall’intervallo in cui la variabile assume valori.
Ciò rende difficile il confronto tra distribuzioni diverse (si pensi alla comparazione tra la variabilità del peso dei neonati e delle mamme!!)
Per ovviare a questo problema si ricorre alla costruzione di indici di variabilità relativa.
Il più diffuso è il coefficiente di variazione (CV) che si ottiene rapportando lo SQM alla media in valore assoluto.
Il risultato è una misura proporzionale della variabilità rispetto alla media.
Il CV è indipendente dall’unità di misura, cioè è un numero puro.
Sono misure di variabilità derivate dalla funzione di ripartizione empirica, attraverso l’uso dei concetti di percentili e quartili di una distribuzione.
Gli indici più utilizzati sono:
Le due misure si differenziano per il grado di robustezza.
Il range risente anche di un solo valore anomalo mentre la differenza interquartile, escludendo le code della distribuzione, è meno influenzata da valori estremi della stessa.
La mutabilità è l’espressione della variabilità nel contesto di caratteri qualitativi.
Si parla di massima eterogenietà di una mutabile quanto tutte le modalità assumono pari frequenza assoluta o relativa (es. variabile genere: Maschi 50%, Femmine 50%).
Al contrario si parla di massima omogeneità di una mutabile quando le unità assumono tutte lo stesso attributo (es. variabile genere: Maschi 100%, Femmine 0%).
Un indice di mutabilità è l’indice di eterogenietà H di Gini.
La concentrazione di una variabile X deriva dalla possibilità di trasferire l’ammontare del fenomeno da un’unità statistica ad un’altra, avvicinandosi o allontanandosi dalla situazione di equidistribuzione dell’ammontare complessivo della variabile.
Si parla di concentrazione minima (equidistribuzione) quando l’ammontare complessivo della variabile è ripartito in misura uguale tra tutte le unità statistiche.
Si parla di concentrazione massima quando l’ammontare complessivo della variabile è posseduto da un’unica unità statistica mentre le rimanti posseggono 0.
Per misurare la concentrazione si costruisce un indice che confronta la frazione cumulata di unità statistiche (pl) con la frazione cumulata di ammontare del fenomeno (ql).
La concentrazione è rappresentata attraverso un grafico, curva di Lorenz, dove la bisettrice è pari alla situazione di equidistribuzione e l’area compresa tra questa e la curva misura invece l’indice R.
Nella prossima lezione si affronteranno i seguenti argomenti:
1. Introduzione
3. Distribuzioni di frequenza e rappresentazioni grafiche
4. Indici statistici di posizione
5. Indici statistici di variabilità
6. Forma di una distribuzione statistica
7. Distribuzioni doppie di frequenza
8. Relazioni tra variabili: Associazione e dipendenza in media
9. Relazioni tra variabili: Correlazione lineare
11. Rapporti statistici e numeri indici
12. Introduzione al calcolo delle probabilità