Una distribuzione statistica consiste nell’insieme delle risposte assunte da un carattere statistico osservato su un dato collettivo.
Si immagini di aver osservato o rilevato sulle N unità statistiche della popolazione una variabile X le cui modalità sono risultate essere (x1, x2,…, xl,…, xN).
Tale insieme di dati prende il nome di distribuzione unitaria della variabile X.
Il pedice “l” individua l’unità statistica sulla quale è stata rilevata la variabile X. Ne deriva che con xl si indica la modalità assunta dalla variabile X per l’elle-sima unità statistica (con l=1,2,….,N).
Una distribuzione unitaria, pur essendo un’informazione esaustiva sul fenomeno, non consente una immediata individuazione delle caratteristiche salienti dello stesso: massimo, minimo, modalità più frequente, ecc.
In altre parole non è utile per fornire informazioni di sintesi.
La distribuzione di quantità è una organizzazione dei dati in forma tabellare tale che per ogni modalità della variabile X si fa corrispondere la quantità totale misurata/rilevata sulle N unità della popolazione.
Essa esplicita, quindi, come l’ammontare complessivo del fenomeno si distribuisce tra le modalità del carattere X.
Il pedice “i” indica la generica modalità del carattere (con i=1,2,…,k).
Distribuzione delle quantità prodotte (in numero di pezzi) nel settore degli elementi da costruzione in metallo. Fonte ISTAT, anno 2007
La distribuzione di frequenza è una organizzazione dei dati in forma tabellare tale che ad ogni modalità della variabile X si fa corrispondere la rispettiva frequenza.
In altre parole, la distribuzione di frequenza esplicita quante volte una determinata modalità si presenta nel collettivo oggetto di studio.
Essa è un modo sintetico per rappresentare le unità statistiche che assumono uguale modalità indicandone unicamente la frequenza di risposta.
Si immagini una popolazione composta da N unità su cui è osservata una variabile X che assume k distinte modalità (variabile discreta). E’ possibile rappresentare le osservazioni in una distribuzione di frequenza in cui:
Frequenze assolute ni
Frequenze relative fi = ni / N
Una prima sintesi grafica della distribuzione di una variabile discreta può essere ottenuta attraverso un diagramma a barre (o diagramma cartesiano).
Esso è costruito ponendo sull’asse delle ascisse le modalità della variabile X e sulle ordinate le frequenze (assolute o relative) corrispondenti ad ogni modalità.
Si ottiene così una rappresentazione detta “a barre verticali”.
Alcune osservazioni
Rappresentazione tabellare e grafica della distribuzione della nazionalità . Fonte: Risorsa Turismo, 2008
Nel caso di una variabile continua non è possibile far corrispondere ad ogni modalità la rispettiva frequenza, in quanto il carattere potrebbe assumere infinite distinte modalità (ognuna delle quali avrebbe frequenza assoluta pari a 1).
Per fornire una rappresentazione tabellare di una variabile continua si ricorre quindi ad una suddivisione in classi delle modalità di risposta.
Ciò consente di determinare le frequenze assolute e relative delle classi di risposta in luogo delle singole modalità.
Si definisce una generica classe come:
[xi-1, xi]
“in essa sono incluse tutte le modalità di X maggiori di xi-1 e minori o uguali a xi”
Si definisce ampiezza di una classe [xi-1, xi], la differenza tra l’estremo superiore e l’estremo inferiore della stessa:
ai=xi – xi-1
I criteri di suddivisione delle modalità in classi sono i seguenti:
sulla base di regole empiriche:
Per la rappresentazione grafica di una distribuzione in classi, non è possibile utilizzare il grafico a barre in quanto le classi potrebbero avere diversa ampiezza e le frequenze non sarebbero quindi confrontabili.
In luogo delle frequenze si introduce il concetto di densità di frequenza.
Essa si definisce come il rapporto tra la frequenza di una classe e la rispettiva ampiezza:
di=ni/(xi – xi-1)
La rappresentazione grafica di una variabile continua avviene attraverso l’impiego dell’istogramma.
Esso fa corrispondere ad ogni classe un rettangolo la cui base è pari all’ampiezza della classe e la cui altezza è pari alla rispettiva densità di frequenza.
Le barre così ottenute hanno un’area pari alla frequenza assoluta delle corrispondenti classi e forniscono, quindi, una informazione non distorta sulla forma della distribuzione.
Alcune osservazioni:
La funzione di ripartizione empirica è una funzione che associa ad ogni valore reale xi la proporzione di unità statistiche che assumono valori uguali o inferiori a xi.
In pratica, la funzione di ripartizione empirica è ottenuta cumulando progressivamente le frequenze relative al crescere di X.
Il concetto di funzione di ripartizione trova applicazione nel contesto delle variabili quantitative.
Definizione
Fi = frequenza relativa cumulata
Proprietà
0 ≤ F(x) ≤ 1
F(x) non è decrescente
F(-∞) = 0 F(+∞) = 1
F(x) è continua da destra
Nella prossima lezione si affronteranno i seguenti argomenti:
2. Caratteri statistici e scale di misura
3. Sintesi tabellare e grafica di una distribuzione statistica
6. Forma di una distribuzione statistica
7. Distribuzioni doppie di frequenza
8. Relazioni tra variabili: associazione e dipendenza in media
9. Relazioni tra variabili: Correlazione lineare
10. Interpolazione statistica e Retta di regressione
11. Elementi di calcolo delle probabilità
12. Introduzione alle variabili casuali
13. Modelli per variabili casuali discrete di uso comune
14. Modelli per variabili casuali continue di uso comune
15. Introduzione alle serie storiche
16. Approccio classico: Modello di decomposizione di una serie storica