Vai alla Home Page About me Courseware Federica Living Library Federica Federica Podstudio Virtual Campus 3D Le Miniguide all'orientamento Gli eBook di Federica La Corte in Rete
 
 
Il Corso Le lezioni del Corso La Cattedra
 
Materiali di approfondimento Risorse Web Il Podcast di questa lezione

Addolorata Marasco » 4.Introduzione alla statistica descrittiva


Distribuzioni di frequenza

Introduzione alla Statistica descrittiva
I risultati di una ricerca sperimentale devono essere presentati in maniera chiara e concisa e in modo da dare rapidamente un’idea delle loro caratteristiche globali. In effetti, quando si raccolgono dati su di una popolazione o su di un campione, i risultati ottenuti si presentano come un insieme di dati grezzi, cioè dati che non sono stati organizzati, sintetizzati o elaborati opportunamente.
A meno che il numero delle osservazioni non sia piccolo, è improbabile che i dati grezzi forniscano qualche informazione finché non siano stati elaborati in qualche modo. In questa lezione verranno descritte alcune tecniche per organizzare e sintetizzare i dati in modo da poter evidenziare le loro caratteristiche principali e individuare le informazioni da essi forniti.

Esempio 4.1: Dati sperimentali discreti
Un’indagine a campione registra il numero di figli di n=40 coppie che abitano un quartiere di una fissata città come mostrato nella tabella a lato.

Esempio 4.1: Dati sperimentali discreti

Esempio 4.1: Dati sperimentali discreti


Distribuzioni di frequenza (segue)

Esempio 4.2: Dati sperimentali continui

I dati sperimentali riportati in tabella sono il risultato delle misurazioni del peso in grammi di n=80 bacche.

Esempio 4.2: Dati sperimentali continui

Esempio 4.2: Dati sperimentali continui


Distribuzioni di frequenza (segue)

Esempio 4.3: Dati sperimentali qualitativi
In una scuola vengono raccolti i dati relativi al colore degli occhi di n=30 bambini (vedi tabella a lato).

In questi esempi si osserva una variabile statistica:

  • il numero di figli;
  • il peso in grammi;
  • il colore degli occhi.

E di essa si raccoglie un insieme di n osservazioni che costituiscono i dati da analizzare.
Le variabili che sono oggetto di rilevazioni statistiche si classificano come nello schema riportato a lato.

Esempio 4.3: Dati sperimentali qualitativi

Esempio 4.3: Dati sperimentali qualitativi

Schema 4.1: Rilevazioni statistiche

Schema 4.1: Rilevazioni statistiche


Distribuzioni di frequenza (segue)

Per analizzare i dati dei precedenti esempi è necessario suddividerli in classi e determinare per ciascuno di essa la frequenza assoluta, cioè il numero di osservazioni appartenenti alla classe.
I dati così organizzati saranno posizionati in una tabella di distribuzione delle frequenze.

Tabella 4.1: Tabella di distribuzione delle frequenze dell’Esempio 4.1.

Tabella 4.1: Tabella di distribuzione delle frequenze dell'Esempio 4.1.


Distribuzioni di frequenza (segue)

Nella Tabella 4.1 la prima colonna indica la classe, la seconda la frequenza assoluta fA, la terza la frequenza relativa fR, ossia il rapporto tra frequenza assoluta e numero totale di osservazioni, la quarta la frequenza percentuale f%, cioè la frequenza relativa moltiplicata per cento.

f^R=\frac{f^A}n , f^\%=f^R \cdot 100\%

Se n e k sono il numero totale delle osservazioni e quello delle classi, è facile verificare che:

0\leq f^A\leq n, 0\leq f^R\leq 1,0\leq f^\%\leq 100\%

\sum_{i=1}^k f_i^A=n, \sum_{i=1}^k f_i^R=1, \sum_{i=1}^k f_i^\%=100\%

Nell’Esempio 4.1 la variabile osservata è discreta e i valori numerici dei dati sono compresi tra ValMin=0 e ValMax=8 così che il campo di variazione R dei dati è R=8.

Distribuzioni di frequenza (segue)

Nell’Esempio 4.2 la variabile osservata è continua e i valori numerici dei dati sono compresi tra ValMin=6.2 e ValMax=31.8 così che il campo di variazione R dei dati è R=31.8-6.2=25.6. Per costruire una tabella delle frequenze è necessario scegliere opportunamente le classi.

Il modo di scegliere le classi non è unico. Ad esempio, in Tabella 4.2 è riportata una delle possibili suddivisione in classi.

Tabella 4.2: Tabella di distribuzione delle frequenze dell’Esempio 4.2.

Tabella 4.2: Tabella di distribuzione delle frequenze dell'Esempio 4.2.


Grafici delle distribuzioni di frequenza

Alcune regole per la scelta delle classi:

  • le classi non devono sovrapporsi e devono contenere tutti i dati;
  • il numero delle classi è generalmente compreso tra 5 e 20 e può utilizzarsi la seguente formula empirica per valutarlo: k ≅√n
  • le classi hanno generalmente la stessa ampiezza, che può essere individuata applicando la formula a R/k

In Tabella 4.2 si sono utilizzate classi aperte a destra [a,b[. Tuttavia, è possibile scegliere anche

  • classi chiuse [a, b] ;
  • classi aperte ]a, b[ ;
  • classi aperte a sinistra ]a,b] ;
  • valori cumulativi del tipo x ≤ a oppure x≥a, … ;
Tabella 4.3: Tabella di distribuzione delle frequenze dell’Esempio 4.3.

Tabella 4.3: Tabella di distribuzione delle frequenze dell'Esempio 4.3.


Grafici delle distribuzioni di frequenza (segue)

Una volta raggruppati i dati continui in una tabella delle frequenze, ciascun dato è rappresentato dal valore centrale della classe x*=(b+a)/2, e quindi non vi è più alcuna informazione circa il loro valore numerico. Al contrario, per i dati discreti e qualitativi non vi è alcuna perdita di informazioni sul valore numerico dei dati (cfr. Tabella 4.1 e 4.3).

Grafici delle distribuzioni di frequenza (segue)

Alcune tra le più usate rappresentazioni grafiche per le distribuzioni di frequenza sono: Diagramma circolare o a torta.

In questo diagramma le frequenze percentuali sono rappresentate da settori circolari aventi ampiezze proporzionali alle frequenze stesse

Il diagramma circolare è generalmente usato per le frequenze percentuali e per le variabili non numeriche.

Figura 4.1: Diagramma circolare per le frequenze percentuali dell’Esempio 4.3.

Figura 4.1: Diagramma circolare per le frequenze percentuali dell'Esempio 4.3.


Grafici delle distribuzioni di frequenza (segue)

Diagramma a barre
Questo diagramma consiste di rettangoli in numero pari alle classi, aventi base di ampiezza costante e altezza pari alla frequenza assoluta della classe ad esso associata.

Il diagramma a barre è generalmente usato per le frequenze di variabili non numeriche e discrete.

Figura 4.2: Diagramma a barre per le frequenze percentuali dell’Esempio 4.3.

Figura 4.2: Diagramma a barre per le frequenze percentuali dell'Esempio 4.3.


Grafici delle distribuzioni di frequenza (segue)

Istogramma
L’istogramma è formato da rettangoli le cui basi definiscono le classi e sono centrate sui valori centrali di ogni classe; le altezze sono uguali o proporzionali alle corrispondenti frequenze (assoluta, relativa o percentuale). Laddove le classi non abbiano la stessa ampiezza, l’area di ogni rettangolo è uguale o proporzionale alla corrispondente frequenza di classe.

L’istogramma è generalmente usato per le frequenze di variabili numeriche.

Figura 4.3: Istogramma per le frequenze percentuali dell’Esempio 4.2.

Figura 4.3: Istogramma per le frequenze percentuali dell'Esempio 4.2.


Indici di posizione e di dispersione

Indici di posizione
Gli indici di posizione come la media, la mediana e la moda definiscono alcuni valori numerici attorno a cui sono centrate le osservazioni x1,…, xn di una fissata variabile statistica x.
Si definisce media campionaria degli n dati x1,…, xn ( risp. dei dati raggruppati in k classi di valore centrale m1,…, mk ) la seguente grandezza:

\bar x =\frac 1 n \sum_{i=1}^n x_i,

La mediana M degli n dati x1,…, xn ordinati in modo crescente corrisponde al seguente valore:

M=\left\{ \begin{array}{rl}x_{\frac{n+1}2}~\text{se n} ~\grave e~ \text{dispari}\\ \frac 1 2 (x_{\frac {n} {2}} + x _{\frac{n} {2} +1}), ~\text{se n} ~\grave e ~\text{ pari}\end{array}\right.

La moda m degli n dati x1,…, xn è il valore o la classe a cui corrisponde la massima frequenza assoluta.

La media coinvolge tutte le osservazioni, pertanto è influenzata dai valori estremi (min e max).
Al contrario, la mediana dipende solo da uno o due valori in centro alla distribuzione e quindi non risente dei valori estremi. La moda, generalmente utilizzata per dati non numerici, può non esistere o non essere unica.

Indici di posizione e di dispersione (segue)

Esempio 4.4: Calcolare la media, la mediana e la moda del seguente insieme di dati:

1,2,3,3,3,5,5,7,7,7,8,9

La media degli n=12 dati è 5, la mediana è ancora 5, laddove l’insieme ha due mode: 3 e 7.

Oltre alla mediana che divide a metà un insieme di dati ordinati, si possono definire altri indici di posizione: i quantili che dividono l’insieme ordinato di dati in un assegnato numero di parti uguali. Questi indici di posizione sono utilizzati soprattutto in presenza di un insieme molto numeroso di dati.

Indici di posizione e di dispersione (segue)


Indici di posizione e di dispersione (segue)

Regola per il calcolo dei quantili

  1. Si ordinano gli n dati x1,…, xn in modo crescente.
  2. Si calcola il prodotto k=np, dove p rappresenta la frazione dei dati minore o uguale al quantile da calcolare. Ad esempio, per calcolare Q1 si dovrà porre p=0.25.
  3. Se k è intero, allora il quantile in questione è (xk+xk+1)/2, se al contrario k non è intero allora lo si approssima per eccesso al primo intero h successivo e quindi il quantile coinciderà con xh.

Esempio 4.5: Calcolare Q1 , Q2, e Q3 per il seguente insieme di dati:

32.2; 32.0; 30.4; 31.0; 31.2; 31.3; 30.3; 29.6; 30.5; 30.7

Dati ordinati:

29.6; 30.3; 30.4; 30.5; 30.7; 31.0; 31.2; 31.3; 32.0; 32.2

Q1: k=10×0.25=2.5, k non è intero, quindi si considera il valore h=3 ⇒ Q1 = x3 =30.4

Q2 : k=10×0. 5=5, k è intero ⇒ Q2 =M= x5 =(30.7+31.0)/2=30.85

Q3 : k=10×0.75=7.5, k non è intero, quindi si considera il valore h=8 ⇒  Q3 = x8 =31.3

Indici di posizione e di dispersione (segue)

Indici di dispersione

Gli indici di posizione non tengono conto della variabilità esistente tra i dati. In particolare, vi sono distribuzioni che pur avendo la stessa media sono molto diverse tra loro. La varianza e lo scarto quadratico medio (o deviazione standard) sono indici che misurano la dispersione dei dati attorno alla media.

Si definisce varianza campionaria degli n dati x1,…, xn la seguente grandezza

s^2=\frac 1 {n-1}\sum_{i=1}^n (x_i-\bar x)^2.

Lo scarto quadratico medio s (o deviazione standard) è la radice quadrata della varianza.

La varianza è tanto più grande quanto più i dati si discostano dalla media.

Esercizio 4.1: Calcolare la varianza e la deviazione standard del seguente insieme di dati: 0.6, 1.2, 0.9, 1.0, 0.6, 0.8

Indici di posizione e di dispersione (segue)

Media e varianza campionarie per dati raggruppati
Nel caso in cui i dati siano raggruppati in k classi, non è possibile effettuare il calcolo esatto della media e della varianza. Supponendo che i dati nella i-esima classe possano essere approssimati dal valore centrale mi della classe e che ad essa corrisponda la frequenza assoluta fi si ottengono le seguenti formule che approssimano la media e la varianza campionarie:

\bar x =\frac 1 n\sum _{i=1}^k m_if_i^A

s^2=\frac1{n-1}\sum_{i=1}^k(m_i-\bar x)^2f_i

Esercizio 4.2: Calcolare la media e la varianza dei dati raggruppati nelle Tabelle 4.1 e 4.2.

Approfondimenti

Alcuni esercizi di questa lezione sono tratti liberamente dal volume “Probabilità e statistica per l’ingegneria e le scienze” di Sheldon M. Ross.

  • Contenuti protetti da Creative Commons
  • Feed RSS
  • Condividi su FriendFeed
  • Condividi su Facebook
  • Segnala su Twitter
  • Condividi su LinkedIn
Progetto "Campus Virtuale" dell'Università degli Studi di Napoli Federico II, realizzato con il cofinanziamento dell'Unione europea. Asse V - Società dell'informazione - Obiettivo Operativo 5.1 e-Government ed e-Inclusion