Ipotesi
Sia data una popolazione finita e su di essa sia definita una v.c. X continua o discreta la cui funzione di densità o distribuzione di probabilità sia nota e dipenda completamente da un parametro “teta” (scalare) appartenente ad uno spazio parametrico prefissato.
Obiettivo
Fornire un intervallo di stima del parametro “teta” sulla base di un campione di n unità statistiche osservate.
Prima di estrarre il campione
L’intervallo di confidenza è un intervallo casuale che comprende il parametro incognito “teta” con una probabilità nota.
Gli estremi dell’intervallo casuale, L1 ed L2, sono v.c., funzione dello stimatore del parametro “teta”.
Dopo l’estrazione del campione
Dopo aver estratto il campione, si sostituiscono le osservazioni campionarie nella funzione dello stimatore ottenendo le realizzazioni delle v.c. estremi dell’intervallo, l1 ed l2. Una volta estratto il campione, non si potrà esprimere tale intervallo in termini probabilistici ed è per tal motivo che si parla di intervalli di “confidenza”.
Affermazione errata
Non è corretto affermare che l’intervallo osservato contiene con probabilità (1-α) il vero valore di “teta”.
Affermazione corretta
Si è confidenti all’ (1-α) % che l’intervallo osservato includa il vero valore di “teta”.
Considerando un ipotetico processo di estrazioni campionarie, l’intervallo osservato comprenderebbe “teta” nell’ (1-α) % dei casi mentre lo escluderebbe nell’α% dei casi.
L’intervallo di confidenza potrà essere costruito se si assume nota la funzione di densità di probabilità o di distribuzione di probabilità definita per la popolazione, altresì si potrà assumere la distribuzione normale se sono valide le condizioni di applicazione del teorema del limite centrale.
Le v.c. L1 ed L2 (estremi dell’intervallo) sono funzione dello stimatore, usualmente impiegato per stimare il parametro “teta”, che gode di proprietà ottimali.
In generale, uno stimatore è tanto più preciso tanto minore è la sua varianza, ovvero la variabilità delle stime al variare del campione.
Pur impiegando uno stimatore efficiente in senso assoluto, la precisione di uno stimatore (inversamente proporzionale alla sua varianza) dipende dalla varianza della popolazione e dalla numerosità campionaria.
Meno variabile è il fenomeno da studiare, minore è la variabilità delle stime e quindi più preciso è lo stimatore, a parità di numerosità campionaria.
Più grande è la numerosità del campione, minore è la variabilità delle stime e più preciso è lo stimatore, a parità di varianza nella popolazione.
Nella costruzione dell’intervallo di confidenza si considerano i seguenti quattro elementi chiave:
Si potranno fissare tre elementi (o condizioni ) e derivare il quarto.
Si potrà, ad esempio, verificare che tanto minore è il livello di “alfa”, tanto più ampio risulta l’intervallo di confidenza a parità di altre condizioni; tanto maggiore è la numerosità campionaria, tanto minore è l’ampiezza dell’intervallo di confidenza, a parità di altre condizioni.
Problema
Si determini una stima per intervalli del parametro “media” di una popolazione normalmente distribuita, con varianza nota.
La v.c. Media Campionaria si distribuisce normalmente con varianza nota.
Soluzione
L’intervallo di confidenza per un dato livello di fiducia (1-α), si costruisce a partire dalla derivazione dei valori della v.c. normale standardizzata sulle tavole statistiche, fissando la numerosità campionaria e supponendo nota la varianza della popolazione.
Nota
Se la popolazione non dovesse essere nota, la v.c. Media campionaria si approssima ad una normale se sono valide le condizioni del teorema del limite centrale (grandi campioni, ad esempio di numerosità superiore alle 30 unità).
Derivazione formale
Si consideri la standardizzazione della v.c. Media campionaria.
Se la popolazione è distribuita normalmente, la v.c. Media campionaria è distribuita normalmente e la sua standardizzata Z è normalmente distribuita con media zero e varianza uno.
Dalla distribuzione nota (e tabulata) della Normale standardizzata Z è possibile desumere i valori “soglia” tali che la probabilità che Z dia un valore all’interno di tali valori sia pari ad (1-α).
L’intervallo di confidenza si otterrà svolgendo opportuni passaggi algebrici all’interno della parentesi.
Problema
Si determini una stima per intervalli del parametro “media” di una popolazione normalmente distribuita, con varianza non nota.
La v.c. Media Campionaria si distribuisce normalmente con varianza non nota.
Soluzione
Si stima la varianza non nota della popolazione con lo stimatore “Varianza campionaria corretta”.
Standardizzando la v.c. Media Campionaria, si deriva una v.c. che si distribuisce come una v.c. t-Student con (n-α) gradi di libertà.
L’intervallo di confidenza per un dato livello di fiducia (1-α), si costruisce considerando i valori della v.c. t-Student sulle tavole statistiche e la stima corretta della varianza.
Nota: La v.c. t-Student si approssima alla Normale standardizzata per n superiore a 30.
Problema
Si determini una stima per intervalli del parametro “probabilità di successo” di una popolazione discreta, distribuita come una bernoulliana.
La v.c. Proporzione Campionaria, stimatore corretto del parametro Π, si distribuisce come una binomiale relativa.
Soluzione
La proporzione campionaria è una media campionaria di variabili casuali discrete (che possono assumere valori 0 o 1), ciascuna distribuita come una bernoulliana.
Al crescere della numerosità campionaria, un’applicazione del teorema centrale del limite (il teorema di De Moivre-Laplace) rende possibile l’applicazione dell’intervallo di stima della media.
Unica considerazione utile è che la varianza non è nota in quanto dipende dallo stesso parametro da stimare, che viene stimato dalla proporzione campionaria.
Problema
Si determini una stima per intervalli del parametro “varianza” di una popolazione distribuita normalmente con media non nota.
La v.c. Varianza Campionaria corretta, stimatore corretto della varianza, è direttamente legata ad una distribuzione di una v.c. chi-quadrato con (n-1) gradi di libertà.
Soluzione
Utilizzando un intervallo di probabilità definito a partire dalla distribuzione del chi-quadrato, è possibile derivare l’intervallo di confidenza della varianza, incognita del problema.
Si ottiene in tal modo l’intervallo di stima della varianza.
Esempi di derivazione dell’intervallo di stima della media
Dopo l’estrazione del campione, si potrà definire un intervallo di stima della media che con una fiducia pari all’(1-α)% include il parametro incognito.
Problema 1: Si determini una stima per intervalli del parametro “media” di una popolazione normalmente distribuita, con varianza nota pari a 25, considerando che in un campione di numerosità pari a 16 la media campionaria è risultata pari a 24.
Soluzione 1: Per un livello di fiducia pari al 95%, ovvero (1-α) = 0,95, l’intervallo di stima risulta pari a [21,55 ; 26,45].
Problema 2: Nelle condizioni del problema 1, si determini il livello di fiducia tale che l’ampiezza dell’intervallo di stima sia pari a 4.
Soluzione 2: Occorre derivare la “soglia” della v.c. Z tale che la quantità da aggiungere e sottrarre alla media campionaria sia pari a 2. La “soglia” della v.c. Z risulterà pari a 1,6.
Nota: Analogamente si procede con l’utilizzo della v.c. t-Student laddove la varianza della popolazione non è nota ed è stimata con la varianza campionaria corretta (per piccoli campioni).
Problema
Si determini una stima per intervalli del parametro “media” di una popolazione non nota.
La v.c. Media Campionaria è uno stimatore corretto della media ed ha una varianza che è funzione della varianza della popolazione e della numerosità campionaria (nel caso di estrazione con ripetizione), e, in aggiunta, della numerosità del collettivo, per popolazioni finite ed estrazione senza ripetizione.
Soluzione
In luogo dell’intervallo di confidenza, si può determinare un tetto minimo alla probabilità che lo stimatore restituisca un valore di stima che rientri in un intervallo prefissato.
La soluzione è offerta dalla diseguaglianza di Tchebycheff.
Nota
Analogamente si procede se il parametro incognito è la probabilità di successo.
Problema
Le osservazioni 12, 9, 10, 13 costituiscono un campione casuale, tratto da una popolazione caratterizzata da uno scarto quadratico medio pari a 3.
Si determini un intervallo di stima per la media della popolazione con confidenza pari al 95%.
Soluzione 1
Senza l’assunzione di normalità per la distribuzione della popolazione, si ricorre alla diseguaglianza di Tchebycheff, determinando il valore ε da aggiungere e sottrarre al valore della media campionaria per costruire l’intervallo di stima.
Soluzione 2
Assumendo che la popolazione si distribuisce come una normale, si determina l’intervallo di stima attraverso la teoria degli intervalli di confidenza.
Nota
A parità di livello di fiducia, la stima è più precisa quando la popolazione è nota, ovvero l’intervallo della diseguaglianza di Tchebycheff è più ampio.
Problema
Un’azienda di software vuole stimare la proporzione di ragazzi che usa Internet. Allo scopo, si intervistano 370 ragazzi e 214 di questi dichiarano di navigare in Rete. Si calcoli l’intervallo di confidenza al 90% per la probabilità di successo di ragazzi che utilizza Internet.
Soluzione
La proporzione campionaria è pari a 214/370 = 0,578.
Siccome la numerosità campionaria è sufficientemente elevata, in virtù dell’applicazione del teorema Limite Centrale, si può utilizzare l’approssimazione a una Normale standardizzata.
Si determina l’intervallo di
stima per un livello di confidenza
pari al 90%.
2. Campionamento statistico e statistiche campionarie di uso più frequente
3. Stimatore e proprietà per piccoli campioni
4. Proprietà asintotiche degli stimatori, leggi di convergenza e teorema del limite centrale
6. Teoria della stima intervallare
7. Teoria della verifica delle ipotesi: la costruzione del test parametrico