Standardizzare una variabile statistica significa trasformare la distribuzione originaria in una distribuzione espressa in una unità di misura standard, che non risenta dell’effetto scala di misura e dell’effetto media.
Una variabile standardizzata Z si ottiene sottraendo a tutti i valori la media e rapportando gli scarti così ottenuti allo SQM.
Applicazioni:
Quando si vogliono confrontare distribuzioni di variabili misurate con diverse scale di misura
Quando si vogliono confrontare distribuzioni di variabili misurate nella stessa scala di misura ma che hanno diversa intensità media.
Processo di standardizzazione
Variabile standardizzata
Proprietà della variabile standardizzata
Una volta standardizzata, la variabile sarà espressa in una nuova unità di misura cosiddetta standard.
I valori della Z possono essere interpretati come scostamenti dalla media in termini di «sigmesimi», cioè di uno scostamento dalla media di z volte sigma.
Per cui, ad esempio, se l’i-esima osservazione avrà valore standardizzato pari a 2 ciò significa che il suo valore originario della X è più alto della media di una quantità pari a due volte lo scarto quadratico medio.
Al contrario, se il j-esimo individuo avrà valore z pari a -1,5 allora il valore della X è più basso della media di uno scostamento pari ad una volta e mezzo lo sqm.
La posizione e la variabilità di una distribuzione di frequenza non esauriscono le informazioni contenute nei dati.
Due variabili statistiche possono avere la stessa posizione e la stessa variabilità ma differire per il peso dei valori che si trovano sulle code, cioè quelli che assumono misure molto distanti dalla media.
Nella statistica descrittiva si definiscono alcune misure concernenti la forma di una distribuzione e che vanno sotto il nome di asimmetria e curtosi.
Molti fenomeni assumono un forma cosiddetta normale.
Normale è una distribuzione che:
Si dice simmetrica invece una forma che, rispetto alla posizione centrale assume uguale struttura delle frequenze sia nella parte destra che nella sinistra:
f(Me-c)=f(Me+c)
(la frequenza è la stessa sia per la modalità “Mediana meno una costante” sia per quella “Mediana più una costante”, qualunque sia la costante)
NB. Una normale è una particolare distribuzione simmetrica.
Una distribuzione simmetrica potrebbe non essere normale.
Si dice asimmetrica una distribuzione la cui forma non si presenta speculare rispetto alla posizione centrale.
Si parla di:
Un metodo empirico per individuare la presenza di asimmetria è quello di confrontare gli indici di posizione della distribuzione considerata.
Un semplice indice di asimmetria si ottiene mediante la differenza tra media e mediana rapportata allo SQM che si dimostra essere il massimo di questo scarto.
Esso è un indice normalizzato in quanto, essendo rapportato al proprio massimo, varia in valore assoluto tra 0 e 1 a prescindere dall’unità di misura della variabile originaria.
Indice normalizzato di asimmetria
Un ulteriore indice di asimmetria, proposto da Fisher, è definito come la media aritmetica delle terze potenze della variabile standardizzata Z.
Questo indice è positivo, negativo o nullo rispettivamente per una distribuzione asimmetrica positiva, negativo o simmetrica.
L’indice di Fisher non è normalizzato, per cui assume valori in tutto l’asse dei numeri reali.
Indice di asimmetria di Fisher
Un altro aspetto della forma di una distribuzione di frequenza è la curtosi.
Essa riguarda lo studio del maggiore o minore appuntimento, e conseguentemente, il maggiore o minor peso delle code rispetto alla parte centrale della forma.
L’indice di curtosi di Pearson misura la curtosi come media aritmetica delle quarte potenze della variabile standardizzata Z.
Questo indice assume valore pari a 3 nel caso in cui la distribuzione assuma una forma normale.
Quando la distribuzione ha una forma maggiormente appuntita rispetto alla normale si parla di forma leptocurtica e l’indice sarà > 3.
Quando la distribuzione ha una forma meno appuntita rispetto alla normale si parla di forma platicurtica e l’indice sarà < 3. Sottraendo la costante 3 all’indice di Pearson si ottiene una versione centrata rispetto alla distribuzione normale:
indice = 0 → forma normale
indice > 0 → forma leptocurtica
indice < 0 → forma platicurtica
Nella prossima lezione si affronteranno i seguenti argomenti:
2. Caratteri statistici e scale di misura
3. Sintesi tabellare e grafica di una distribuzione statistica
6. Forma di una distribuzione statistica
7. Distribuzioni doppie di frequenza
8. Relazioni tra variabili: associazione e dipendenza in media
9. Relazioni tra variabili: Correlazione lineare
10. Interpolazione statistica e Retta di regressione
11. Elementi di calcolo delle probabilità
12. Introduzione alle variabili casuali
13. Modelli per variabili casuali discrete di uso comune
14. Modelli per variabili casuali continue di uso comune
15. Introduzione alle serie storiche
16. Approccio classico: Modello di decomposizione di una serie storica