Home

Federica EU

1/22

Massimo Aria » 4.Schemi di campionamento

Introduzione

Nella realtà quotidiana non è sempre possibile osservare il dato nella sua interezza.

Per ragioni di natura economica, tecnica e temporale, il ricercatore può essere spinto a rilevare un sottoinsieme delle informazioni di interesse.

Si parla in questo caso di “campione” di osservazioni o alternativamente di rilevazione campionaria per distinguere la stessa da quella censuaria, che riguarda l’intera popolazione.

Il campione casuale

Un campione statistico è tale quando le unità che lo compongono sono estratte con criteri casuali ed al contempo ogni elemento della popolazione di riferimento ha una probabilità non nulla di essere selezionata.

Questo tipo di campione si dice anche casuale per distinguerlo da quelli non casuali, o anche campioni a scelta ragionata, in cui le unità sono selezionate con criteri non probabilistici riflettendo così l’idea di popolazione che l’analista ha nel proprio immaginario.

Si definisce frazione di campionamento, il rapporto tra la dimensione del campione n e quella della popolazione N:

$f=\frac{n}{N}$

Disegno di campionamento

Un disegno (o schema) di campionamento è una procedura complessa frutto di una serie di decisioni formulate dal ricercatore sulla base della natura del fenomeno da rilevare e dalle ipotesi della ricerca prefissate nell’analisi.

Elementi di un disegno di campionamento

Un disegno di campionamento si fonda su tre elementi chiave:

La struttura del campione
Solitamente le unità formanti una popolazione sono elencante in una o più liste dalle quali quindi si effettua l’estrazione casuale delle stesse. Quando una popolazione deriva da un’unica lista allora si parlerà di campione semplice mentre nel caso contrario in cui vi siano più liste strutturate secondo strati, gerarchie, ecc., allora il campione che ne risulterà è detto complesso.

Elementi di un disegno di campionamento

La tecnica di selezione delle unità
Scegliere la tecnica di selezione più appropriata è un fatto importante in quanto essa è determinante nel rispetto della casualità del procedimento. Le tecniche di selezione più note sono:

l’estrazione casuale con reimmissione delle unità nella popolazione dopo la loro selezione;
l’estrazione casuale senza reimmissione in cui le unità sono estratte in blocco e quindi ogni unità non potrà essere presente più volte nello stesso campione;
l’estrazione casuale sistematica dove solo la prima unità è estratta casualmente dalla popolazione mentre le successive sono selezionate sulla base di un passo sistematico del tipo “una unità selezionata ogni k in sequenza”.

La probabilità di inclusione di ogni unità.
Ad ogni passo di estrazione, le unità possono avere una probabilità costante oppure variabile di essere selezionate. La selezione con probabilità diseguali si impiega nei casi in cui si intende pesare le unità sulla base di una loro dimensione di interesse nell’analisi.

I diversi schemi di campionamento

In letteratura si fa solitamente riferimento ad alcune tipologie standard di disegni di campionamento quali:

Semplici
- campionamento casuale semplice con ripetizione
- campionamento casuale semplice senza ripetizione
Complessi
- campionamento stratificato
- campionamento a due stadi
- campionamento a grappoli

Nella realtà è possibile ritrovare un più ampia gamma di disegni di campionamento che comunque per larga parte possono essere ricondotti a queste quattro categorie.

Campionamento casuale semplice

Si consideri una variabile casuale X definita su una popolazione di N unità.

Si dice casuale semplice quel campione di dimensione n in cui le unità sono estratte con probabilità costante ad ogni passo di estrazione (condizione di equiprobabilità delle unità).
(un c.c.s. può essere assimilato ad un estrazione da un’urna dove, ad ogni selezione, le singole unità hanno una probabilità di selezione pari a 1/N).

Formalmente un c.c.s può essere definito come una n-pla di variabili casuali indipendenti ed identicamente distribuite con funzione di densità pari a quella della popolazione.

Nella realtà il c.c.s. risulta di difficile applicazione in quanto, affinché siano rispettati i dettami di questo disegno, la popolazione deve essere presente in un’unica lista e gli elementi della stessa devono essere distribuiti in maniera casuale. Inoltre nella lista non vi devono essere osservazioni ripetute così come mancanti oppure estranee altrimenti la probabilità di inclusione non sarebbe più costante per tutte le unità.

C.c.s. con e senza ripetizione

Ogni unità della popolazione ha la stessa probabilità di essere estratta per formare il campione.
Può essere:

Con ripetizione (o bernoulliano): ogni unità può entrare a far parte del campione più di una volta, le estrazioni sono tra loro indipendenti e quindi, in ognuna di esse, la probabilità di essere estratta per ogni unità è pari a 1/N.
Senza ripetizione (o in blocco): ogni unità compare una sola volta nel campione, quindi alla prima estrazione la probabilità per la singola unità sarà pari a 1/N, alla seconda sarà pari a 1/(N-1), alla terza 1/(N-2) e così via…

C.c.s. nel caso della media campionaria

Prendendo in considerazione lo stimatore media campionaria $\overline X _n$ :
Nel campionamento senza ripetizione la Varianza dello stimatore è pari a
$Var\left( {\overline X _n } \right) = \frac{{\sigma ^2 }}{n} \cdot \left( {\frac{{N - n}}{{N - 1}}} \right)$

Mentre nel caso del campionamento con ripetizione, la Varianza della media campionaria è pari a
$Var\left( {\overline X _n } \right) = \frac{{\sigma ^2 }}{n}$

Da cui deriva che:

Generalmente $Var\left( {\overline X _{sr} } \right) \le Var\left( {\overline X _{cr} } \right)$
Per popolazioni con elevata dimensione N rispetto a n, il fattore di correzione $\left( {\frac{{N - n}}{{N - 1}}} \right) \to 1$ e le due varianze coincideranno.

Indice di efficienza del campionamento

Nella teoria il c.c.s. è quello a cui si fa costantemente riferimento quando si studiano gli strumenti di statistica inferenziale e le loro proprietà.
Questo perché il c.c.s. per la sua semplicità metodologica rende molto agevole lo studio delle proprietà degli strumenti di stima e di test, i loro momenti, ecc.

In tal senso il campionamento semplice rappresenta anche il termine di paragone con cui viene misurata l’efficienza delle procedure di campionamento alternative o complesse (per distinguerle da quelle semplici) attraverso l’indice di efficienza del campionamento:

$DEFF = \frac{{Var\left( {T_n^{cc} } \right)}}{{Var\left( {T_n^{cs} } \right)}}$

Dove ${T_n^{cc} }$ indica lo stimatore ottenuto attraverso un disegno di campionamento complesso e ${T_n^{cs} }$ indica lo stimatore nel caso di un disegno di campionamento semplice.

Ottenuto rapportando la varianza dello stimatore nel caso di campionamento complesso rispetto alla stessa nel caso di campionamento semplice.

Un campionamento si dice efficiente (rispetto a quello semplice) quando DEFF<1 mentre sarà inefficiente nel caso contrario.

Campionamento stratificato

“Stratificare” una popolazione consiste nel suddividere la stessa in sottopopolazioni (strati) il più possibile omogenee rispetto alla variabile da studiare, utilizzando una variabile ad essa correlata.

Ciò significa che le unità sono organizzate in sottogruppi omogenei per comportamento, attitudini o per natura (esempio strati omogenei per caratteristiche socio-demografiche quali l’età, il genere, oppure per caratteristiche spaziali, le regioni, i comuni, ecc.).
Spesso la stratificazione può anche essere legata a motivi tecnici e cioè la suddivisione della popolazione su più liste che rende necessaria l’adozione di un disegno stratificato.

Esempio
Si pensi alla stima del reddito in una popolazione stratificata rispetto alla professione (operaio, impiegato, dirigente, ecc.)
L’ipotesi è che il reddito sia strettamente correlato con la professione.
Quindi dividere la popolazione sulla base di tale caratteristica consente di ottenere gruppi internamente più omogenei (con minore variabilità) e quindi stime più accurate rispetto ad un campionamento casuale semplice (che effettua l’estrazione da un’unica lista).

Stratificazione

Notazione nel campionamento stratificato

N ampiezza della popolazione
H numero degli strati
N_h, con (h = 1,…, H ) ampiezza di ogni strato h
W_h = N_h/N la frequenza relativa in ogni strato h
n ampiezza totale del campione
n_h ampiezza del singolo campione estratto da ogni strato h
$f_h = \frac{{n_h }}{{N_h }}$ frazione di campionamento del h-esimo strato
$\sigma _h^2$ pari alla varianza della popolazione nel h-esimo strato

Tipi di campionamento stratificato

Campionamento stratificato uniforme
Da ogni strato viene estratto lo stesso numero nh di unità statistiche dalla popolazione:
$n_h = \frac{N}{H}$ per ogni h=1,…,H

Campionamento stratificato proporzionale
Il campione rispecchia le stesse proporzioni della popolazione rispetto alla variabile di stratificazione:
$n_h = W_h \cdot n$ per ogni h=1,…,H

Campionamento stratificato ottimale
Si estraggono un numero maggiore di unità da quegli strati che presentano una più elevata variabilità:
$n_h = \frac{{W_h \cdot \sigma _h }}{{\sum\limits_{h = 1}^H {W_h \cdot \sigma _h } }} \cdot n$

Effetti della stratificazione

Considerando ancora lo stimatore media campionaria, si può affermare che:

La stratificazione comporta un aumento dell’efficienza delle stime rispetto al campionamento casuale semplice $DEFF = \frac{{Var\left( {\overline X _{st} } \right)}}{{Var\left( {\overline X _{cs}} \right)}}<br />$
tra i diversi tipi di stratificazione vale la seguente gerarchia
$Var\left( {\overline X _{ott} } \right) \le Var\left( {\overline X _{prop} } \right) \le Var\left( {\overline X _{unif} } \right)$

In conclusione l’utilizzo del campionamento stratificato si giustifica nel fatto che la popolazione è definita in sottogruppi e quindi si decide di sfruttare questa informazioni a-priori per ottenere stimatori più efficienti.

Inoltre si ricorre ad un campionamento stratificato ottimale quando gli strati risultano avere una variabilità molto diversa tra loro che quindi consente di ridistribuire la dimensione campionaria in maniera ottimale rispetto alla efficienza dello stimatore.

Campionamento a due stadi

In alcuni casi le unità della popolazione possono essere organizzate in maniera gerarchica in cui le N unità elementari possono ricondursi ad un numero ristretto A di unità complesse che si trovano ad un livello di aggregazione più elevato rispetto alle precedenti.

Si parla in questo caso di “gerarchie di popolazioni“.

Si pensi ad esempio ad un indagine riguardante i clienti di un magazzino che abbia più punti vendita. In questo caso il campionamento ha ad oggetto due popolazioni: i punti vendita e i clienti dove questi ultimi sono univocamente identificati come appartenenti ognuno ad un unico punto vendita.

Il campionamento a due stadi è quindi quel procedimento che prevede una estrazione in due stadi:

Nel primo si estraggono le unità complesse, quelle cosiddette di primo stadio (nel nostro esempio sono i punti vendita);
Successivamente nel secondo, dalle unità complesse estratte, si estraggono le unità elementari o di secondo stadio.

Schema di popolazione a stadi

Probability Proportional to Size

Il campionamento a stadi può assumere numerosissime configurazioni in quanto ad ogni stadio si può scegliere un diverso criterio di estrazione.

Un tipico disegno a due stadi adottato nella pratica è quello del PPS (Probability Proportional to Size).
Questo si sviluppa secondo i seguenti passi:

si attribuisce ad ogni unità a di primo stadio una probabilità pa proporzionale alla dimensione della stessa;
si estraggono k unità di primo stadio;
da ognuna di esse si estraggono b (costante) unità di secondo stadio.

In questo modo la dimensione campionaria sarà pari a n=k*b e la probabilità di inclusione ogni unità di secondo stadio sarà costante pari alla frazione di campionamento f ottenuta come n/N.

Campionamento a grappoli

Un altro particolare tipo di campionamento a due stadi è quello a grappolo che prevede, una volta estratta l’unità di primo stadio, che tutte le unità elementari che la compongono siano incluse nel campione.

In altre parole, per ogni grappolo estratto tutte le unità che lo compongono faranno parte del campione.

L’utilizzo di tale disegno di campionamento è particolarmente adatto in quei casi in cui per la popolazione, naturalmente o artificialmente ripartita in grappoli, non siano note le liste delle unità che compongono ognuno di essi e quindi si rende necessario raccogliere tutte le unità.

In questo modo l’unica informazione necessaria è il numero k dei grappoli da estrarre al primo stadio.

Campioni non probabilistici

I campioni non probabilistici sono quelli in cui le unità sono selezionate con criteri non casuali riflettendo così l’idea di popolazione che l’analista ha nel proprio immaginario.

Tra questi si ricordano:

Campioni di comodo;
Campioni a scelta ragionata;
Campioni per quote.

Le ricerche che si basano su campioni non probabilistici prendono il nome di sondaggio.

L’obiettivo di un sondaggio è quello di descrivere, seppur in maniera approssimativa, un dato fenomeno senza perseguire finalità inferenziali.

I risultati ottenuti valgono unicamente per il campione analizzato ma non possono essere in alcun modo estesi, inferendo, alla intera popolazione.

Per tali motivi questi campioni vengono detti non statistici.

Campioni di comodo

Sono gli intervistatori a selezionare le unità campionarie, che condividono una stessa condizione.

Esempio: campionamento presso un esercizio commerciale.

Un particolare campione di comodo viene rappresentato dal televoto, dove non c’è un intervistatore che esegue la scelta, ma il campionamento avviene attraverso un processo di autoselezione volontaria.

Alcuni campioni non probabilistici

Campioni di comodo
Sono gli intervistatori a selezionare le unità campionarie, che condividono una stessa condizione.
Esempio: campionamento presso un esercizio commerciale.
Un particolare campione di comodo viene rappresentato dal televoto, dove non c’è un intervistatore che esegue la scelta, ma il campionamento avviene attraverso un processo di autoselezione volontaria.

Campione ragionato
Sono note a priori alcune caratteristiche della popolazione obiettivo o dell’oggetto dell’indagine, in modo che le unità campionarie vengano selezionate in modo mirato.

Campione per quote
Il campione viene organizzato in modo tale che vengano rispettate le quote presenti nella popolazione (corrisponde ad un campione stratificato dove, però, l’estrazione non è casuale, ma stabilita dal ricercatore).