Introduzione alla Statistica descrittiva
I risultati di una ricerca sperimentale devono essere presentati in maniera chiara e concisa e in modo da dare rapidamente un’idea delle loro caratteristiche globali. In effetti, quando si raccolgono dati su di una popolazione o su di un campione, i risultati ottenuti si presentano come un insieme di dati grezzi, cioè dati che non sono stati organizzati, sintetizzati o elaborati opportunamente.
A meno che il numero delle osservazioni non sia piccolo, è improbabile che i dati grezzi forniscano qualche informazione finché non siano stati elaborati in qualche modo. In questa lezione verranno descritte alcune tecniche per organizzare e sintetizzare i dati in modo da poter evidenziare le loro caratteristiche principali e individuare le informazioni da essi forniti.
Esempio 4.1: Dati sperimentali discreti
Un’indagine a campione registra il numero di figli di n=40 coppie che abitano un quartiere di una fissata città come mostrato nella tabella a lato.
Esempio 4.2: Dati sperimentali continui
I dati sperimentali riportati in tabella sono il risultato delle misurazioni del peso in grammi di n=80 bacche.
Esempio 4.3: Dati sperimentali qualitativi
In una scuola vengono raccolti i dati relativi al colore degli occhi di n=30 bambini (vedi tabella a lato).
In questi esempi si osserva una variabile statistica:
E di essa si raccoglie un insieme di n osservazioni che costituiscono i dati da analizzare.
Le variabili che sono oggetto di rilevazioni statistiche si classificano come nello schema riportato a lato.
Per analizzare i dati dei precedenti esempi è necessario suddividerli in classi e determinare per ciascuno di essa la frequenza assoluta, cioè il numero di osservazioni appartenenti alla classe.
I dati così organizzati saranno posizionati in una tabella di distribuzione delle frequenze.
Nella Tabella 4.1 la prima colonna indica la classe, la seconda la frequenza assoluta fA, la terza la frequenza relativa fR, ossia il rapporto tra frequenza assoluta e numero totale di osservazioni, la quarta la frequenza percentuale f%, cioè la frequenza relativa moltiplicata per cento.
Se n e k sono il numero totale delle osservazioni e quello delle classi, è facile verificare che:
Nell’Esempio 4.1 la variabile osservata è discreta e i valori numerici dei dati sono compresi tra ValMin=0 e ValMax=8 così che il campo di variazione R dei dati è R=8.
Nell’Esempio 4.2 la variabile osservata è continua e i valori numerici dei dati sono compresi tra ValMin=6.2 e ValMax=31.8 così che il campo di variazione R dei dati è R=31.8-6.2=25.6. Per costruire una tabella delle frequenze è necessario scegliere opportunamente le classi.
Il modo di scegliere le classi non è unico. Ad esempio, in Tabella 4.2 è riportata una delle possibili suddivisione in classi.
Alcune regole per la scelta delle classi:
In Tabella 4.2 si sono utilizzate classi aperte a destra [a,b[. Tuttavia, è possibile scegliere anche
Una volta raggruppati i dati continui in una tabella delle frequenze, ciascun dato è rappresentato dal valore centrale della classe x*=(b+a)/2, e quindi non vi è più alcuna informazione circa il loro valore numerico. Al contrario, per i dati discreti e qualitativi non vi è alcuna perdita di informazioni sul valore numerico dei dati (cfr. Tabella 4.1 e 4.3).
Alcune tra le più usate rappresentazioni grafiche per le distribuzioni di frequenza sono: Diagramma circolare o a torta.
In questo diagramma le frequenze percentuali sono rappresentate da settori circolari aventi ampiezze proporzionali alle frequenze stesse
Il diagramma circolare è generalmente usato per le frequenze percentuali e per le variabili non numeriche.
Diagramma a barre
Questo diagramma consiste di rettangoli in numero pari alle classi, aventi base di ampiezza costante e altezza pari alla frequenza assoluta della classe ad esso associata.
Il diagramma a barre è generalmente usato per le frequenze di variabili non numeriche e discrete.
Istogramma
L’istogramma è formato da rettangoli le cui basi definiscono le classi e sono centrate sui valori centrali di ogni classe; le altezze sono uguali o proporzionali alle corrispondenti frequenze (assoluta, relativa o percentuale). Laddove le classi non abbiano la stessa ampiezza, l’area di ogni rettangolo è uguale o proporzionale alla corrispondente frequenza di classe.
L’istogramma è generalmente usato per le frequenze di variabili numeriche.
Indici di posizione
Gli indici di posizione come la media, la mediana e la moda definiscono alcuni valori numerici attorno a cui sono centrate le osservazioni x1,…, xn di una fissata variabile statistica x.
Si definisce media campionaria degli n dati x1,…, xn ( risp. dei dati raggruppati in k classi di valore centrale m1,…, mk ) la seguente grandezza:
La mediana M degli n dati x1,…, xn ordinati in modo crescente corrisponde al seguente valore:
La moda m degli n dati x1,…, xn è il valore o la classe a cui corrisponde la massima frequenza assoluta.
La media coinvolge tutte le osservazioni, pertanto è influenzata dai valori estremi (min e max).
Al contrario, la mediana dipende solo da uno o due valori in centro alla distribuzione e quindi non risente dei valori estremi. La moda, generalmente utilizzata per dati non numerici, può non esistere o non essere unica.
Esempio 4.4: Calcolare la media, la mediana e la moda del seguente insieme di dati:
1,2,3,3,3,5,5,7,7,7,8,9
La media degli n=12 dati è 5, la mediana è ancora 5, laddove l’insieme ha due mode: 3 e 7.
Oltre alla mediana che divide a metà un insieme di dati ordinati, si possono definire altri indici di posizione: i quantili che dividono l’insieme ordinato di dati in un assegnato numero di parti uguali. Questi indici di posizione sono utilizzati soprattutto in presenza di un insieme molto numeroso di dati.
Regola per il calcolo dei quantili
Esempio 4.5: Calcolare Q1 , Q2, e Q3 per il seguente insieme di dati:
32.2; 32.0; 30.4; 31.0; 31.2; 31.3; 30.3; 29.6; 30.5; 30.7
Dati ordinati:
29.6; 30.3; 30.4; 30.5; 30.7; 31.0; 31.2; 31.3; 32.0; 32.2
Q1: k=10×0.25=2.5, k non è intero, quindi si considera il valore h=3 ⇒ Q1 = x3 =30.4
Q2 : k=10×0. 5=5, k è intero ⇒ Q2 =M= x5 =(30.7+31.0)/2=30.85
Q3 : k=10×0.75=7.5, k non è intero, quindi si considera il valore h=8 ⇒ Q3 = x8 =31.3
Indici di dispersione
Gli indici di posizione non tengono conto della variabilità esistente tra i dati. In particolare, vi sono distribuzioni che pur avendo la stessa media sono molto diverse tra loro. La varianza e lo scarto quadratico medio (o deviazione standard) sono indici che misurano la dispersione dei dati attorno alla media.
Si definisce varianza campionaria degli n dati x1,…, xn la seguente grandezza
Lo scarto quadratico medio s (o deviazione standard) è la radice quadrata della varianza.
La varianza è tanto più grande quanto più i dati si discostano dalla media.
Esercizio 4.1: Calcolare la varianza e la deviazione standard del seguente insieme di dati: 0.6, 1.2, 0.9, 1.0, 0.6, 0.8
Media e varianza campionarie per dati raggruppati
Nel caso in cui i dati siano raggruppati in k classi, non è possibile effettuare il calcolo esatto della media e della varianza. Supponendo che i dati nella i-esima classe possano essere approssimati dal valore centrale mi della classe e che ad essa corrisponda la frequenza assoluta fi si ottengono le seguenti formule che approssimano la media e la varianza campionarie:
Esercizio 4.2: Calcolare la media e la varianza dei dati raggruppati nelle Tabelle 4.1 e 4.2.
Alcuni esercizi di questa lezione sono tratti liberamente dal volume “Probabilità e statistica per l’ingegneria e le scienze” di Sheldon M. Ross.
1. Introduzione ai modelli matematici
2. Modelli matematici non lineari
3. Laboratorio 1: introduzione al foglio elettronico Excel
4. Introduzione alla statistica descrittiva
5. Laboratorio 2: la statistica descrittiva con Excel
6. Correlazione tra variabili. Metodo dei minimi quadrati
7. Correlazione non lineare tra variabili. Metodi di linearizzazione. Calcolo dell'errore
8. Laboratorio 3: correlazione tra variabili, rette e curve di regressione
9. Introduzione alle equazioni differenziali ordinarie
10. Modello di Malthus e modello logistico
11. Laboratorio 4: Modelli di Malthus e logistico
12. Modello preda-predatore di Lotka-Volterra
13. Modello di competizione interspecifica
14. Laboratorio 5: Modelli per la crescita di popolazioni conviventi: predazione e competizione
15. Modelli epidemiologici SIS e SIR
16. Laboratorio 6: Modelli SIS e SIR per la diffusione di un'epidemia