Introduzione alla statistica descrittiva con Excel
Si supponga che un ricercatore abbia effettuato delle misure su di un campione di 10 individui rilevando la quantità di una certa sostanza presente nell’organismo di ognuno di loro.
I dati non raggruppati sono organizzati nella tabella in Figura 5.1.
Com’è noto dalla Lezione 4, il primo passo verso l’organizzazione e la sintesi dei dati è quello di calcolare i valori estremi della lista, cioè i valori minimo e massimo presenti nella lista. Utilizzando il comando
Inserisci→Funzione
oppure cliccando direttamente sul pulsante fx appare una finestra di dialogo che permette di scegliere la funzione desiderata nella Categoria: Statistiche. Ad esempio, per il minimo occorre selezionare la funzione MIN (cfr Figura 5.2).
Cliccando su OK appare una seconda finestra nella quale è richiesto di specificare l’insieme dei dati di cui calcolare il valore minimo. In questo caso, utilizzando il mouse basta selezionare le caselle da B1 a B10, oppure inserire direttamente l’espressione B1:B10 e poi confermare l’operazione con OK. Se tutto il procedimento è stato eseguito correttamente ne risulterà che il valore minimo dei dati è 14,3.
Esercizio 5.1: Procedendo in modo analogo, determinare il valore massimo della lista, la media, la mediana, i quartili, i terzili, i decili, i centili, la varianza e la deviazione standard campionarie. Infine, verificare che per l’insieme di dati considerato non esiste la moda.
Suggerimento: Per calcolare i terzili, i decili e i centili utilizzare la funzione PERCENTILE seguendo le indicazioni fornite da Excel (cfr. Figura 5.3).
Distribuzioni di frequenze
Rilevando il numero di fratelli di un campione di n=20 studenti si ottengono i seguenti dati
1, 1, 2, 1, 0, 3, 4, 2, 3, 1, 0, 2, 1, 1, 0, 1, 1, 0, 3, 2
i cui valori minimo e massimo sono 0 e 4.
Per sintetizzare i dati in una tabella di distribuzione delle frequenze è opportuno raggrupparli in cinque classi: studenti con 0 fratelli, studenti con 1 fratello,…, studenti con 4 fratelli.
Per determinare la frequenza assoluta di ciascuna classe è possibile utilizzare la funzione di Excel
CONTA.SE[intervallo,criteri]
che determina il numero di celle in un intervallo fissato che soddisfano i criteri stabiliti.
Ad esempio, se i dati sono stati introdotti nelle celle da B2 a B21 per individuare la classe corrispondente a 2 fratelli, basta digitare la formula
=CONTA.SE(B2:B21;”2″)
che calcola il numero di celle non vuote che rispondono al criterio di “essere uguale a due” (cfr Figura 5.3).
Per il calcolo delle frequenza relative è necessario determinare la dimensione del campione; a tal fine è possibile utilizzare una delle seguenti funzioni:
CONTA.NUMERI[val1,val2,...]
che calcola il numero di celle totali non vuote in cui sono presenti variabili numeriche, oppure la funzione
CONTA.VALORI[val1,val2,...]
che calcola il numero di celle totali non vuote in cui possono essere presenti anche variabili qualitative.
Ad esempio, per determinare la frazione di studenti con 2 fratelli basta introdurre nella cella D3 la funzione
=CONTA.SE(B2:B21;”2″)/CONTA.NUMERI(B2:B21)
oppure la funzione
=CONTA.SE(B2:B21;”2″)/CONTA.VALORI(B2:A21)
che determina il rapporto tra il numero di studenti che hanno dichiarato di avere 2 fratelli ed il numero totale degli studenti intervistati (cfr. Figura 5.4)
Esercizio 5.2: Costruire una tabella di distribuzione delle frequenze come mostrato in Figura 5.5.
Si osservi che una volta stabilite le classi o modalità, per calcolare la frequenza relativa alla classe 2 (che in Figura 5.5 si trova in C5), si può digitare
=CONTA.SE(A2:A21;C5)
analogo discorso vale per la frequenza assoluta ad essa corrispondente.
In una corsa campestre a cui partecipano 22 atleti si registrano i seguenti tempi (in minuti. secondi)
12.1, 8.9, 16.2, 8.2, 9.8, 15.1, 14.5, 13.4, 14.7, 7.5, 8.8,
……………………………………………………………………………………………………… (5.1)
……….. 12.4, 16.1, 15.2, 13.5, 14.6, 15.5, 7.8, 12.5, 13.2, 11.0, 10.5. ………..
Per raggruppare i dati di variabili continue si scelgono come classi opportuni intervalli e di ogni classe si determinano le frequenze assoluta e relativa. Qui di seguito si evidenziano i criteri da utilizzare per individuare le frequenze assolute di alcune tipologie di classi.
Valori cumulativi del tipo x<a
Si supponga di voler individuare il numero di atleti che hanno ottenuto un tempo inferiore a 10 minuti. Supposto che i dati siano stati introdotti nelle celle da A2 ad A23, per determinare la frequenza relativa della classe x<10 basta utilizzare la funzione
=CONTA.SE(A2:A23;”<10″)
che calcola il numero di celle non vuote che rispondono al criterio <10.
Classi aperte a destra del tipo [a,b[
Per determinare il numero di atleti che hanno ottenuto un tempo di gara nell'intervallo [10,14[ è sufficiente utilizzare la funzione
=CONTA.SE(A2:A23;"<14")- CONTA.SE(A2:A23;"<10")
che determina la differenza tra il numero di studenti che hanno ottenuto un tempo inferiore a 14 minuti e quelli che hanno ottenuto un tempo inferiore ai 10 minuti.
Esercizio 5.3: Dopo aver inserito i dati numerici (5.1) in un foglio Excel, individuare le frequenze assolute e relative per le classi [7.5,9.3[, [14.7,16.5[, x<12. Infine, individuare le frequenze assolute e relative per le classi ]7.5,9.8], [8.2,12.5].
Com’è noto, per determinare una tabella di frequenze per variabili continue è necessario procedere secondo il seguente schema.
Definizione delle classi.
- Numero n delle osservazioni: per calcolare il numero n totale delle osservazioni basta utilizzare le funzioni
CONTA.NUMERI oppure CONTA.VALORI.
- Ampiezza del campione: per determinare l’ampiezza R del campione basta calcolare la differenza tra i valori massimo e minimo dell’insieme di dati con il comando MAX-MIN.
- Numero delle classi: per stabilire il numero k di classi si può procedere approssimando per eccesso al numero intero più vicino √n oppure log2n come di seguito
=ARROTONDA.ECCESSO(RADQ(n);1)
=ARROTONDA.ECCESSO(LOG(n;2);1)
- Ampiezza delle classi: l’ampiezza h di ogni classe si ottiene approssimando per eccesso l’espressione h=R/k, dove R è l’ampiezza del campione e k è il numero delle classi (in generale, si sceglie un numero con una sola cifra decimale significativa; ad esempio se h=1,77 lo si approssima con 1,8.
Calcolo delle frequenze assolute e relative.
Per determinare il numero degli elementi del campione che appartengono a ogni classe e le frequenze relative, basta procedere come discusso nel paragrafo precedente.
Esercizio 5.4: Determinare per l’insieme di dati (5.1) una tabella di frequenze del tipo mostrato in Figura 5.6. Si osservi che gli intervalli delle classi vanno inseriti come semplici espressioni, e che solo gli estremi di ciascun intervallo possono essere calcolati con Excel.
In questa sezione si esamineranno i principali tipi di grafico che vengono associati alle tabelle di distribuzione delle frequenze (cfr Lezione 4).
Diagramma a barre
Il diagramma a barre è un grafico generalmente usato per caratteri qualitativi, si rappresenta in un sistema di assi ponendo in orizzontale le frequenze del carattere e in verticale le classi.
Le barre sono dei rettangoli di altezza costante e base proporzionale alla frequenza di ciascuna classe.
Si consideri la tabella delle frequenze costruita per l’insieme di dati (5.1), selezionando le celle contenenti i dati e i rispettivi titoli si scelga il grafico Barre (cfr Figura 5.7) dopo aver selezionato Serie in colonna è possibile formattare il grafico.
Se ad esempio si operano le seguenti scelte:
si ottiene il grafico in Figura 5.8
Esercizio 5.5: Applicando il procedimento appena descritto, si disegni un diagramma a barre per le frequenze relative. Si osservi che in questo caso è necessario selezionare le due colonne (B e D) corrispondenti alle classi e alle frequenze relative che non sono contigue. Allora, per selezionarle, si cominci dalla prima colonna e premendo il tasto Ctrl si selezioni poi la seconda colonna.
Diagramma a settori circolari o a torta
Il diagramma circolare o a torta si costruisce suddividendo un cerchio in tanti settori circolari quanti sono le classi rispetto a cui raggruppare i dati. L’angolo di ciascun settore circolare è proporzionale alla frequenza assoluta (o relativa oppure percentuale).
Si consideri ad esempio la tabella di frequenza relativa ai dati (5.1), per ottenere un diagramma circolare utilizzando la finestra Creazione guidata grafico, basta selezionare l’opzione Torta e poi selezionare le celle relative alle classi e alle frequenze relative.
Scegliendo opportunamente i titoli e la legenda e selezionando in Etichette dati l’opzione Mostra percentuali si ottiene un grafico come in Figura 5.9.
Istogramma
L’istogramma è un grafico generalmente usato per caratteri quantitativi continui, si rappresenta con un sistema di assi in cui sull’asse delle ascisse si pongono le classi e sull’asse delle ordinate le frequenze.
Questo diagramma è costituito da tanti rettangoli quante sono le classi, con base uguale o proporzionale all’ampiezza di ciascuna classe e altezza (o area nel caso di classi con ampiezze diverse) uguale o proporzionale alle frequenze. La costruzione di questo grafico è analoga a quella del diagramma a barre.
Esercizio 5.5: Utilizzando la creazione guidata grafico di Excel, disegnare un istogramma per i dati numerici (5.1).
Alcuni esercizi di questa lezione sono tratti liberamente dal volume “Probabilità e statistica per l’ingegneria e le scienze” di Sheldon M. Ross.
La versione di valutazione gratuita di Excel, nonché una guida in linea e vari demo di fogli elettronici, possono ritrovarsi sul sito Web di Microsoft.
1. Introduzione ai modelli matematici
2. Modelli matematici non lineari
3. Laboratorio 1: introduzione al foglio elettronico Excel
4. Introduzione alla statistica descrittiva
5. Laboratorio 2: la statistica descrittiva con Excel
6. Correlazione tra variabili. Metodo dei minimi quadrati
7. Correlazione non lineare tra variabili. Metodi di linearizzazione. Calcolo dell'errore
8. Laboratorio 3: correlazione tra variabili, rette e curve di regressione
9. Introduzione alle equazioni differenziali ordinarie
10. Modello di Malthus e modello logistico
11. Laboratorio 4: Modelli di Malthus e logistico
12. Modello preda-predatore di Lotka-Volterra
13. Modello di competizione interspecifica
14. Laboratorio 5: Modelli per la crescita di popolazioni conviventi: predazione e competizione
15. Modelli epidemiologici SIS e SIR
16. Laboratorio 6: Modelli SIS e SIR per la diffusione di un'epidemia