Una distribuzione statistica consiste nell’insieme delle risposte assunte da un carattere statistico osservato su un dato collettivo.
Si immagini di aver osservato o rilevato sulle N unità statistiche della popolazione una variabile X le cui modalità sono risultate essere (x1, x2,…, xl,…, xN).
Tale insieme di dati prende il nome di distribuzione unitaria della variabile X.
Il pedice “l” individua l’unità statistica sul quale è stato rilevata la variabile X. Ne deriva che con xl si indica la modalità assunta dalla variabile X per l’elle-sima unità statistica (con l=1,2,….,N).
Una distribuzione unitaria, pur essendo un’informazione esaustiva sul fenomeno, non consente una immediata individuazione delle caratteristiche salienti dello stesso: massimo, minimo, modalità più frequente, ecc.
In altre parole non è utile per fornire informazioni di sintesi.
La distribuzione di quantità è una organizzazione dei dati in forma tabellare tale che per ogni modalità della variabile X si fa corrispondere la quantità totale misurata/rilevata sulle N unità della popolazione.
Essa esplicita, quindi, come l’ammontare complessivo del fenomeno si distribuisce tra le modalità del carattere X.
Il pedice “i” indica la generica modalità del carattere (con i=1,2,…,k).
Distribuzione delle quantità prodotte (in numero di pezzi) nel settore degli elementi da costruzione in metallo (fonte ISTAT, anno 2007)
La distribuzione di frequenza è una organizzazione dei dati in forma tabellare tale che ad ogni modalità della variabile X si fa corrispondere la rispettiva frequenza.
In altre parole, la distribuzione di frequenza esplicita quante volte una determinata modalità si presenta nel collettivo oggetto di studio.
Essa è un modo sintetico per rappresentare le unità statistiche che assumono uguale modalità indicandone unicamente la frequenza di risposta.
Si immagini una popolazione composta da N unità su cui è osservata una variabile X che assume k distinte modalità (variabile discreta).
E’ possibile rappresentare le osservazioni in una distribuzione di frequenza in cui:
Una prima sintesi grafica della distribuzione di una variabile discreta può essere ottenuta attraverso un diagramma a barre (o diagramma cartesiano).
Esso è costruito ponendo sull’asse delle ascisse le modalità della variabile X e sulle ordinate le frequenze (assolute o relative) corrispondenti ad ogni modalità.
Si ottiene così una rappresentazione detta “a barre verticali“.
Alcune osservazioni:
Rappresentazione tabellare e grafica della distribuzione della nazionalità (Fonte: Risorsa Turismo, 2008)
Nel caso di una variabile continua non è possibile far corrispondere ad ogni modalità la rispettiva frequenza, in quanto il carattere potrebbe assumere infinite distinte modalità (ognuna delle quali avrebbe frequenza assoluta pari a 1).
Per fornire una rappresentazione tabellare di una variabile continua si ricorre quindi ad una suddivisione in classi delle modalità di risposta.
Ciò consente di determinare le frequenze assolute e relative delle classi di risposta in luogo delle singole modalità.
Si definisce una generica classe come:
[xi-1, xi]
“in essa sono incluse tutte le modalità di X maggiori di xi-1 e minori o uguali a xi”
Si definisce ampiezza di una classe [xi-1, xi], la differenza tra l’estremo superiore e l’estremo inferiore della stessa:
ai=xi – xi-1
I criteri di suddivisione delle modalità in classi sono i seguenti:
Per la rappresentazione grafica di una distribuzione in classi, non è possibile utilizzare il grafico a barre in quanto le classi potrebbero avere diversa ampiezza e le frequenze non sarebbero quindi confrontabili.
In luogo delle frequenze si introduce il concetto di densità di frequenza.
Essa si definisce come il rapporto tra la frequenza di una classe e la rispettiva ampiezza:
di=ni/(xi – xi-1)
La rappresentazione grafica di una variabile continua avviene attraverso l’impiego dell’istogramma.
Esso fa corrispondere ad ogni classe un rettangolo la cui ampiezza è pari all’ampiezza della classe e la cui altezza è pari alla rispettiva densità di frequenza.
Le barre così ottenute hanno un’area pari alla frequenza assoluta delle corrispondenti classi e forniscono, quindi, una informazione non distorta sulla forma della distribuzione.
Alcune osservazioni:
La funzione di ripartizione empirica è una funzione che associa ad ogni valore reale xi la proporzione di unità statistiche che assumono valori uguali o inferiori a xi.
In pratica, la funzione di ripartizione empirica è ottenuta cumulando progressivamente le frequenze relative al crescere di X.
Il concetto di funzione di ripartizione trova applicazione nel contesto delle variabili quantitative.
Nella prossima lezione si affronteranno i seguenti argomenti:
1. Introduzione
3. Distribuzioni di frequenza e rappresentazioni grafiche
4. Indici statistici di posizione
5. Indici statistici di variabilità
6. Forma di una distribuzione statistica
7. Distribuzioni doppie di frequenza
8. Relazioni tra variabili: Associazione e dipendenza in media
9. Relazioni tra variabili: Correlazione lineare
11. Rapporti statistici e numeri indici
12. Introduzione al calcolo delle probabilità