Home

Federica EU

1/15

Roberta Siciliano » 6.Teoria della stima intervallare

I contenuti

Il problema
Intervallo di confidenza
Interpretazione dell’intervallo di confidenza
Il ruolo dello stimatore
Elementi chiave
Stima per intervalli della media con popolazione nota e varianza nota
Stima per intervalli della media con popolazione nota e varianza non nota
Stima per intervalli della probabilità di successo
Stima per intervalli della varianza
Esempi

Il problema

Ipotesi

Sia data una popolazione finita e su di essa sia definita una v.c. X continua o discreta la cui funzione di densità o distribuzione di probabilità sia nota e dipenda completamente da un parametro “teta” (scalare) appartenente ad uno spazio parametrico prefissato.

Obiettivo

Fornire un intervallo di stima del parametro “teta” sulla base di un campione di n unità statistiche osservate.

Popolazione teorica nota a meno di “teta”

Parametro non noto da stimare

Intervallo di confidenza

Prima di estrarre il campione

L’intervallo di confidenza è un intervallo casuale che comprende il parametro incognito “teta” con una probabilità nota.

Gli estremi dell’intervallo casuale, L1 ed L2, sono v.c., funzione dello stimatore del parametro “teta”.

Dopo l’estrazione del campione

Dopo aver estratto il campione, si sostituiscono le osservazioni campionarie nella funzione dello stimatore ottenendo le realizzazioni delle v.c. estremi dell’intervallo, l1 ed l2. Una volta estratto il campione, non si potrà esprimere tale intervallo in termini probabilistici ed è per tal motivo che si parla di intervalli di “confidenza”.

Intervallo di confidenza

Interpretazione dell’intervallo di confidenza

Affermazione errata
Non è corretto affermare che l’intervallo osservato contiene con probabilità (1-α) il vero valore di “teta”.

Affermazione corretta
Si è confidenti all’ (1-α) % che l’intervallo osservato includa il vero valore di “teta”.
Considerando un ipotetico processo di estrazioni campionarie, l’intervallo osservato comprenderebbe “teta” nell’ (1-α) % dei casi mentre lo escluderebbe nell’α% dei casi.

Il ruolo dello stimatore

L’intervallo di confidenza potrà essere costruito se si assume nota la funzione di densità di probabilità o di distribuzione di probabilità definita per la popolazione, altresì si potrà assumere la distribuzione normale se sono valide le condizioni di applicazione del teorema del limite centrale.

Le v.c. L1 ed L2 (estremi dell’intervallo) sono funzione dello stimatore, usualmente impiegato per stimare il parametro “teta”, che gode di proprietà ottimali.

In generale, uno stimatore è tanto più preciso tanto minore è la sua varianza, ovvero la variabilità delle stime al variare del campione.

Pur impiegando uno stimatore efficiente in senso assoluto, la precisione di uno stimatore (inversamente proporzionale alla sua varianza) dipende dalla varianza della popolazione e dalla numerosità campionaria.

Meno variabile è il fenomeno da studiare, minore è la variabilità delle stime e quindi più preciso è lo stimatore, a parità di numerosità campionaria.

Più grande è la numerosità del campione, minore è la variabilità delle stime e più preciso è lo stimatore, a parità di varianza nella popolazione.

Elementi chiave degli intervalli di confidenza

Nella costruzione dell’intervallo di confidenza si considerano i seguenti quattro elementi chiave:

Livello di fiducia “alfa”
Variabilità della popolazione
Numerosità campionaria
Ampiezza dell’intervallo

Si potranno fissare tre elementi (o condizioni ) e derivare il quarto.

Si potrà, ad esempio, verificare che tanto minore è il livello di “alfa”, tanto più ampio risulta l’intervallo di confidenza a parità di altre condizioni; tanto maggiore è la numerosità campionaria, tanto minore è l’ampiezza dell’intervallo di confidenza, a parità di altre condizioni.

Intervallo di confidenza (IC) della media (1)

Problema

Si determini una stima per intervalli del parametro “media” di una popolazione normalmente distribuita, con varianza nota.

La v.c. Media Campionaria si distribuisce normalmente con varianza nota.

Soluzione

L’intervallo di confidenza per un dato livello di fiducia (1-α), si costruisce a partire dalla derivazione dei valori della v.c. normale standardizzata sulle tavole statistiche, fissando la numerosità campionaria e supponendo nota la varianza della popolazione.

Nota

Se la popolazione non dovesse essere nota, la v.c. Media campionaria si approssima ad una normale se sono valide le condizioni del teorema del limite centrale (grandi campioni, ad esempio di numerosità superiore alle 30 unità).

v.c. Media Campionaria

Intervalllo di confidenza della media (varianza nota)

IC della media con popolazione e varianza note (2)

Derivazione formale

Si consideri la standardizzazione della v.c. Media campionaria.

Se la popolazione è distribuita normalmente, la v.c. Media campionaria è distribuita normalmente e la sua standardizzata Z è normalmente distribuita con media zero e varianza uno.

Dalla distribuzione nota (e tabulata) della Normale standardizzata Z è possibile desumere i valori “soglia” tali che la probabilità che Z dia un valore all’interno di tali valori sia pari ad (1-α).

L’intervallo di confidenza si otterrà svolgendo opportuni passaggi algebrici all’interno della parentesi.

v.c. Normale standardizzata derivata dalla v.c. Media Campionaria

Intervalllo di probabilità associato alla v.c. Normale standardizzata

IC della media con popolazione nota e varianza non nota

Problema

Si determini una stima per intervalli del parametro “media” di una popolazione normalmente distribuita, con varianza non nota.

La v.c. Media Campionaria si distribuisce normalmente con varianza non nota.

Soluzione

Si stima la varianza non nota della popolazione con lo stimatore “Varianza campionaria corretta”.
Standardizzando la v.c. Media Campionaria, si deriva una v.c. che si distribuisce come una v.c. t-Student con (n-α) gradi di libertà.

L’intervallo di confidenza per un dato livello di fiducia (1-α), si costruisce considerando i valori della v.c. t-Student sulle tavole statistiche e la stima corretta della varianza.

Nota: La v.c. t-Student si approssima alla Normale standardizzata per n superiore a 30.

v.c. Media Campionaria

Intervalllo di confidenza della media (varianza non nota)

IC della probabilità di successo

Problema

Si determini una stima per intervalli del parametro “probabilità di successo” di una popolazione discreta, distribuita come una bernoulliana.

La v.c. Proporzione Campionaria, stimatore corretto del parametro Π, si distribuisce come una binomiale relativa.

Soluzione

La proporzione campionaria è una media campionaria di variabili casuali discrete (che possono assumere valori 0 o 1), ciascuna distribuita come una bernoulliana.

Al crescere della numerosità campionaria, un’applicazione del teorema centrale del limite (il teorema di De Moivre-Laplace) rende possibile l’applicazione dell’intervallo di stima della media.

Unica considerazione utile è che la varianza non è nota in quanto dipende dallo stesso parametro da stimare, che viene stimato dalla proporzione campionaria.

v.c. Proporzione Campionaria

Intervallo di confidenza della probabilità di successo (estrazione con ripetizione)

IC della varianza

Problema

Si determini una stima per intervalli del parametro “varianza” di una popolazione distribuita normalmente con media non nota.

La v.c. Varianza Campionaria corretta, stimatore corretto della varianza, è direttamente legata ad una distribuzione di una v.c. chi-quadrato con (n-1) gradi di libertà.

Soluzione

Utilizzando un intervallo di probabilità definito a partire dalla distribuzione del chi-quadrato, è possibile derivare l’intervallo di confidenza della varianza, incognita del problema.

Si ottiene in tal modo l’intervallo di stima della varianza.

Distribuzione della v.c. Varianza Campionaria corretta

Intervallo di stima della varianza

Esempi (1)

Esempi di derivazione dell’intervallo di stima della media
Dopo l’estrazione del campione, si potrà definire un intervallo di stima della media che con una fiducia pari all’(1-α)% include il parametro incognito.
Problema 1: Si determini una stima per intervalli del parametro “media” di una popolazione normalmente distribuita, con varianza nota pari a 25, considerando che in un campione di numerosità pari a 16 la media campionaria è risultata pari a 24.
Soluzione 1: Per un livello di fiducia pari al 95%, ovvero (1-α) = 0,95, l’intervallo di stima risulta pari a [21,55 ; 26,45].

Problema 2: Nelle condizioni del problema 1, si determini il livello di fiducia tale che l’ampiezza dell’intervallo di stima sia pari a 4.
Soluzione 2: Occorre derivare la “soglia” della v.c. Z tale che la quantità da aggiungere e sottrarre alla media campionaria sia pari a 2. La “soglia” della v.c. Z risulterà pari a 1,6.

Nota: Analogamente si procede con l’utilizzo della v.c. t-Student laddove la varianza della popolazione non è nota ed è stimata con la varianza campionaria corretta (per piccoli campioni).

Intervallo di stima della media (dopo l'estrazione del campione)

Intervallo numerico di stima (problema 1)

La diseguaglianza di Tchebycheff

Problema

Si determini una stima per intervalli del parametro “media” di una popolazione non nota.

La v.c. Media Campionaria è uno stimatore corretto della media ed ha una varianza che è funzione della varianza della popolazione e della numerosità campionaria (nel caso di estrazione con ripetizione), e, in aggiunta, della numerosità del collettivo, per popolazioni finite ed estrazione senza ripetizione.

Soluzione

In luogo dell’intervallo di confidenza, si può determinare un tetto minimo alla probabilità che lo stimatore restituisca un valore di stima che rientri in un intervallo prefissato.

La soluzione è offerta dalla diseguaglianza di Tchebycheff.

Nota

Analogamente si procede se il parametro incognito è la probabilità di successo.

v.c. Media Campionaria

Diseguaglianza di Tchebycheff per un intervallo di stima della media (popol. non nota, varianza nota)

Esempi (2)

Problema

Le osservazioni 12, 9, 10, 13 costituiscono un campione casuale, tratto da una popolazione caratterizzata da uno scarto quadratico medio pari a 3.
Si determini un intervallo di stima per la media della popolazione con confidenza pari al 95%.

Soluzione 1

Senza l’assunzione di normalità per la distribuzione della popolazione, si ricorre alla diseguaglianza di Tchebycheff, determinando il valore ε da aggiungere e sottrarre al valore della media campionaria per costruire l’intervallo di stima.

Soluzione 2

Assumendo che la popolazione si distribuisce come una normale, si determina l’intervallo di stima attraverso la teoria degli intervalli di confidenza.

Nota
A parità di livello di fiducia, la stima è più precisa quando la popolazione è nota, ovvero l’intervallo della diseguaglianza di Tchebycheff è più ampio.

Derivazione dell'intervallo di stima della media attraverso la diseguaglianza di Tchebycheff

Derivazione dell'intervallo di stima della media attraverso la teoria degli intervalli di confidenza

Esempi (3)

Problema
Un’azienda di software vuole stimare la proporzione di ragazzi che usa Internet. Allo scopo, si intervistano 370 ragazzi e 214 di questi dichiarano di navigare in Rete. Si calcoli l’intervallo di confidenza al 90% per la probabilità di successo di ragazzi che utilizza Internet.

Soluzione
La proporzione campionaria è pari a 214/370 = 0,578.

Siccome la numerosità campionaria è sufficientemente elevata, in virtù dell’applicazione del teorema Limite Centrale, si può utilizzare l’approssimazione a una Normale standardizzata.

Si determina l’intervallo di
stima per un livello di confidenza
pari al 90%.