Home

Federica EU

1/31

Enrica Amaturo » 26.I campioni probabilistici

Introduzione

Come si è accennato nella lezione 11, per poter “trasformare” gli oggetti di una ricerca in casi ovvero per poter passare dalla sfera della realtà alla sfera degli strumenti cognitivi, è necessario attivare delle procedure specifiche. Si ricorre a queste procedure, che prendono il nome di “campionamento” , ogniqualvolta la popolazione di riferimento non è raggiungibile nella sua totalità.

In questa lezione saranno dapprima definiti concetti di popolazione e campione, stima, parametro ed errore campionario; in seguito, saranno esposti i tipi di campionamento che ricadono nella famiglia del campionamento probabilistico.

Dalla popolazione ai casi

Dall'oggetto al caso

Popolazione o universo

La popolazione (o universo) di una ricerca è quell’insieme dei casi che teoricamente costituiscono l’oggetto di indagine e che hanno in comune almeno una caratteristica osservabile.

La ricerca studia le caratteristiche della popolazione di riferimento che costituiscono l’oggetto da conoscere; ciò significa che ogni popolazione contiene delle informazioni che il ricercatore deve raccogliere per svolgere la sua ricerca.

Per questo, comunemente si dice che la popolazione è un “contenitore di informazioni”.

Definizione della popolazione

Quando si mette a punto una ricerca, una delle fasi consiste nel definire la popolazione di riferimento. Definire una popolazione significa individuare le caratteristiche interessanti per la ricerca, delimitando il campo di azione della ricerca stessa, eliminando quelle caratteristiche non utili. La definizione della popolazione dipende dagli obiettivi di ricerca.

Esempi:

indagine sui redditi in Italia -> popolazione: individui che percepiscono un reddito in Italia
indagine sui fitti in Italia -> popolazione: tutte le famiglie in fitto in Italia
indagine sugli istituti superiori campani -> popolazione: tutti gli edifici scolastici in Campania
indagine sulle prossime elezioni politiche -> popolazione: tutti gli italiani con diritto di voto e con età uguale o superiore a 18 anni
indagine sull’impatto della riforma scolastica sugli studenti delle scuole superiori -> popolazione studenti italiani delle scuole superiori

La popolazione teorica e popolazione accessibile

La popolazione può essere teorica e accessibile.

La popolazione teorica: è l’insieme di tutti i casi che costituiscono la popolazione oggetto di indagine.
Es. indagine sulle prossime elezioni politiche -> popolazione teorica: tutti gli italiani con diritto di voto e con età uguale o superiore a 18 anni.

La popolazione accessibile: è l’insieme di tutti i casi appartenenti alla popolazione teorica che sono effettivamente raggiungibili.
Es. indagine sulle prossime elezioni politiche -> popolazione accessibile: parte degli italiani con diritto di voto e con età uguale o superiore a 18 anni effettivamente intervistabili.

Censimento e Survey

In base alla coincidenza o meno delle due popolazioni si distingue in Censimento e Survey.

Censimento quando popolazione teorica e popolazione accessibile coincidono ogni caso della popolazione è esaminabile e raggiungibile e fornisce informazioni, la rilevazione esaustiva o totale.
Es. tutti i cittadini italiani (Istat)

Survey (o indagine o inchiesta o sondaggio) quando è impossibile accedere alla popolazione teorica per problemi di costi, tempi o di raggiungibilità; per questo è necessario effettuare l’indagine solo su una parte della popolazione, quella accessibile, selezionando i singoli casi attraverso delle procedure standard (campionamento).
L’ipotesi è che un numero limitato di casi fornisce la stessa informazione che avrebbe fornito l’intera popolazione.

La rilevazione campionaria

Indipendentemente dagli obiettivi proposti, l’impossibilità di accedere alla popolazione teorica ovvero di esaminare ogni singola unità dell’intera popolazione è causata da:

limitate risorse – economiche, di personale di tempo – disponibili
l’intera popolazione da studiare non è fisicamente raggiungibile
l’intera popolazione da studiare non è del tutto nota

Per superare questi problemi si ricorre ad una rilevazione campionaria ossia una rilevazione che permette di studiare le caratteristiche di una popolazione attraverso lo studio di una porzione della popolazione stessa (campione) invece dell’intera popolazione.

Campione e campionamento: definizioni

Campione: parte della popolazione selezionata in modo da diminuire, in termini di tempo e costi, l’acquisizione tutte le informazioni utili per la ricerca. Il campione è la rappresentazione in piccolo di tutta la popolazione, sintetizza, cioè tutte le caratteristiche della popolazione originaria.

Scegliere un campione da una popolazione significa effettuare un “campionamento”.

Campionamento: Procedimento attraverso il quale si estrae, da un’insieme di unità (popolazione), un numero finito di casi (campione) che siano rappresentativi di tutta la popolazione e scelti con criteri tali da consentire la generalizzazione (inferenza) all’intera popolazione a partire dai risultati ottenuti studiando il campione.

Campionamento

Motivi per utilizzare un campione

L’estrazione di un campione richiede meno tempo rispetto all’esame dell’intera popolazione
un campione è meno costoso
un campione è più pratico da gestire
un campione garantisce un elevato grado approfondimento e accuratezza
spesso è una necessità perché l’esame dell’intera popolazione non è accessibile

Le valutazioni sulle caratteristiche della popolazione si devono perciò basare sulle informazioni contenute in un campione estratto dalla popolazione.

L'inferenza

Parametri e stime dei parametri

Gli studi basati sulle rilevazioni campionarie hanno lo scopo di stimare alcuni parametri ovvero dare valori approssimativi della popolazione sulla base dei parametri del campione.

L’analisi delle caratteristiche di un campione avviene proprio grazie ai:

parametri: valori caratteristici (statistici) assunti dalle variabili sull’intera popolazione
stime del parametro della popolazione: valori approssimativi e probabilistici che determinano, con un certo margine di errore, il carattere della popolazione da cui il campione deriva
stime del parametro del campione: sono i valori rilevati sul campione
- rilevazione esaustiva/totale: stime popolazione = stime del campione -> valore esatto
- rilevazione campionaria/parziale: stime popolazione = stime del campione -> valore stimato

L’errore di campionamento

La stima del parametro è probabilistica, essa comporta, cioè, un errore dovuto all’impossibilità di determinare con esattezza il parametro. Ciò che è possibile è stabilire un intervallo (di fiducia/confidenza) entro il quale si colloca il valore della statistica della popolazione. Al di fuori di questo intervallo si determina l’errore di campionamento ossia un errore casuale insito nelle procedure di formazione del campione. Proprio perché la “vera” caratteristica della popolazione è (per definizione) ignota, l’errore di campionamento non può mai essere determinato con esattezza. Esso tuttavia può essere contenuto entro limiti più o meno ristretti adottando appropriati metodi di campionamento.

L’errore di campionamento è rappresentato dalla differenza tra i risultati ottenuti dal campione e la vera caratteristica della popolazione che vogliamo stimare.

NB: L’errore di campionamento è direttamente proporzionale all’intervallo di fiducia/confidenza e alla variabilità del fenomeno studiato ed inversamente proporzionale all’ampiezza del campione.

Validità/Bontà di un campione

Perché il risultati di una indagine campionaria siano generalizzabili è necessario valutare la validità (bontà) del campione. Tale valutazione può essere condotta ponendosi due quesiti:

Le conclusioni sono corrette per gli individui che compongono il campione?
Il campione rappresenta bene la popolazione da cui è stato estratto?

Validità/bontà di un campione

Validità interna ed esterna di un campione

La risposta a queste due domande deriva dai concetti di validità interna e di validità esterna di uno studio statistico.

Validità interna: misura quanto i risultati di uno studio sono corretti per il campione di individui che sono stati studiati: viene detta “interna” appunto perché è relativa esclusivamente al gruppo di casi studiati e non necessariamente agli altri. La validità interna rappresenta una condizione necessaria ma non sufficiente perché uno studio sia utile.

Validità esterna: è il grado di generalizzabilità delle conclusioni tratte da uno studio campionario. Essa misura il grado di verità dell’assunto secondo cui gli individui studiati con il campione sono “uguali” a quelli dell’intera popolazione che non rientrano nella rilevazione campionaria.

In generale: Data una popolazione da cui viene estratto un campione se la validità è positiva, si può sostenere che il campione rappresenta la popolazione da cui è stato estratto; se è negativo, occorre procedere ad un nuovo campionamento.

Bontà di un campione

Un campione è valido (bontà di un campione) se è:

eterogeneo: se include tutte le caratteristiche e qualità diverse. Il campione deve essere diversificato al suo interno in modo da presentare una variabilità di caratteristiche collegate alle informazioni da rilevare (tutti studenti)
rappresentativo: ovvero se presenta, senza distorsioni, tutte le caratteristiche della popolazione di riferimento. La rappresentatività è garantita se la procedura di campionamento è casuale ossia se è regolata dalla legge caso/probabilità
accurato: ovvero se il grado di minimizzazione degli errori di copertura (lista della popolazione) è elevato ed il numero di non risposte (tutti i casi del campione sono raggiungibili) è basso
ampio: ovvero se include un numero elevato di casi. L’ampiezza è inversamente proporzionale agli errori di rilevazione

Come si determina l’ampiezza del campione?

Per determinare la dimensione ottimale del campione (il campione più piccolo col minimio errore di campionamento) che consenta di stimare una percentuale ad una precisione voluta (intervallo di confidenza stabilito) si utilizzano le tavole di campionamento.

Per usarle è necessario conoscere:

n° delle unità che compongono la popolazione dal quale il campione deve essere tratto
l’intervallo di fiducia/confidenza al quale si intende operare
la percentuale di soggetti della popolazione che possiedono le caratteristiche richieste
l’errore campionario massimo che vuole accettare nei risultati

Determinazione dell’ampiezza del campione: esempio

Si intende stimare i votanti per il partito politico X in una città dove gli elettori sono 200.000; alle precedenti elezioni il partito X aveva preso il 23% dei voti

popolazione (N) = 200.000
intervallo di fiducia = 95%
stima (P) dei voti che il partito X dovrebbe prendere =23% dei votanti
errore campionario = 1%

Campione = 6580

Tipi di campionamento

I tipi di campioni si possono raggruppare in:

campionamento probabilistico: è la procedura di campionamento in cui i casi vengono scelti in modo che la probabilità che di ciascun caso ha di essere incluso nel campione è nota
campionamento non probabilistico: è la procedura di campionamento in cui i casi vengono scelti in modo che la probabilità che di ciascun caso ha di essere incluso nel campione è non nota

NB: Dal momento che nei campioni non probabilistici i casi sono scelti senza conoscere la loro probabilità di selezione, la teoria sviluppata per il campionamento probabilistico non può essere applicata.

Campionamento probabilistico

Un campionamento si dice probabilistico quando per ciascun caso la probabilità di essere estratti è nota ed è diversa da zero. Consente l’inferenza ossia la generalizzazione dei risultati a tutta la popolazione.

CARATTERISTICA: la media della popolazione è uguale alla media del campione.

In un CP è fondamentale la conoscenza dell’universo: per poter estrarre in modo probabilistico i casi dalla popolazione è necessario avere dati sull’universo teorico, è necessario, cioè, disporre di informazioni circa le caratteristiche della popolazione.

N = corrisponde ai numero dei soggetti nella popolazione oggetto di indagine.
n = corrisponde al numero dei soggetti nel campione.
K = n/N = rapporto di campionamento.

Come si scelgono casualmente i casi da includere nella rilevazione? Le tavole dei numeri casuali

Stabilita l’ampiezza del campione, devono essere individuati i casi che concretamente devono essere inclusi nel campione. Perché la scelta sia effettivamente casuale si ricorre alle tavole dei numeri casuali.

Una tavola di numeri casuali si compone di una serie di cifre generate casualmente ed elencate nell’ordine secondo cui sono state generate.

Poiché il sistema decimale ha 10 cifre (le cifre 0,1,2,3,…,9), queste hanno tutte la stessa probabilità 1/10 di essere generate casualmente.

Le cifre sono riunite in gruppi di cinque per facilitare la lettura; poiché tutte le cifre o successioni di cifre nella tavola sono casuali, si può leggere sia in senso orizzontale che verticale, dall’alto o dal basso, specificando però prima di iniziare a usare la tavola il criterio scelto; bisogna inoltre scegliere un punto di partenza nella tavola dei numeri casuali (ad esempio puntando a caso con una matita a occhi chiusi). Per usare la tavola si assegna ad ogni elemento della popolazione un codice numerico, ad esempio si fa una lista numerata; si può ottenere un campione leggendo la tavola dei numeri casuali e selezionando gli individui della lista il cui codice coincide con il numero casuale.

Tavola dei numeri casuali

I tipi di campionamento probabilistico

Campionamento casuale semplice
Campionamento sistematico
Campionamento stratificato random
Campionamento a stadi
Campionamento per aree
Campionamento a grappoli (cluster)

1. campionamento casuale semplice

E’ la più semplice tecnica di selezione di un campione; il procedimento è sostanzialmente simile allo schema di estrazione da un’urna.

Un campione casuale semplice è un campione in cui ogni individuo della popolazione ha la stessa probabilità di essere scelto.

Se si indica con n la dimensione del campione (numero di elementi del campione) e con N la dimensione della popolazione, (numero di elementi della popolazione), nel campionamento casuale semplice la probabilità che ogni individuo della popolazione ha di essere scelto alla prima estrazione (rapporto di probabilità) è 1/N.

In questo tipo di campionamento è necessaria la presenza di una lista della popolazione.

Campionamento casuale semplice con reimmissione e senza reimmissione

La selezione del campione può essere fatta in due modi:

con reimmissione: ciascun elemento della popolazione è disponibile ad ogni estrazione, quindi ad ogni estrazione ogni elemento ha sempre probabilità 1/N di essere estratto. In questo modo un elemento può essere nuovamente estratto in una successiva estrazione
senza reimmissione. Ciascun elemento, una volta selezionato, non viene rimesso nella popolazione e non può più essere scelto di nuovo. In questo modo però gli i casi non hanno tutti la stessa probabilità di essere estratti, perché si altera la composizione del campione dopo ogni estrazione

Tutti i tipi di campionamento probabilistico si basano sul Campionamento Casuale Semplice.

Campionamento casuale semplice: procedura

Con sorteggio

Ad ogni numero è associato ad un soggetto

estrazione di un numero da un’urna
ricorso ai numeri casuali generati dai computer
utilizzo della tavola dei numeri casuali

Senza sorteggio

Si predispongono in un’urna tanti bigliettini quanti sono gli elementi della popolazione e se ne estraggono un n prestabilito
si inseriscono nomi dell’intera popolazione in un foglio elettronico e si numerano in ordine alfabetico da 1 a N. Si estraggono i casi da includere nel campione in modo casuale (dati o 1 caso ogni tot.)
tavola numeri casuali: se N ha 3 cifre si seleziona la prima tabella con 3 cifre e si procede o in verticale, diagonale orizzontale

2. Campionamento sistematico

E’ tipo particolare di campionamento casuale semplice dove le unità campionarie sono individuate sistematicamente una ogni dato intervallo. Nel campionamento sistematico le n unità che costituiranno il campione sono scelte dalla popolazione ad intervalli regolari ossia in base ad una regola prefissata.

Questo metodo assicura anche che le singole unità del campione siano distribuite uniformemente all’interno della popolazione.

Occorre tuttavia porre attenzione che l’intervallo di campionamento prescelto non sia influenzato da qualche variabile esterna che agisce con la stessa ciclicità del campionamento.

Il campionamento sistematico è più facile da eseguire, ma il suo uso acritico può portare con facilità a campioni affetti da errori sistematici; rischio che non c’è con il campionamento casuale semplice.

Campionamento sistematico: procedura

Si costruisce un elenco di nominativi e si associa un numero
Si definiscono le unità totali della popolazione e si classificano da 1 a N N è noto
Si decide la dimensione del campione da estrarre, corrisponde al valore di n.
Si calcola l’intervallo di campionamento rapporto k (N/n)
Si estrae a caso un valore compreso tra 1 e k

Esempio (exit poll):

N = 1000 ; n = 100 ; k = 1000/100 = 10

Si sceglie per iniziare un n° compreso tra 1 e 10 e poi se ne prende uno ogni 10

2 = n° estratto a caso tra 1 e 10

3. Campionamento stratificato

E’ tipo particolare di campionamento casuale semplice, nel quale si utilizzano una o più caratteristiche precedentemente acquisite sulla popolazione per suddividerla in sotto popolazioni o strati ciascuno dei quali si suppone omogeneo. Si utilizza quando, essendo in possesso di una lista completa della popolazione, si intende studiare un carattere specifico – e determinante- della popolazione I campioni estratti da un sottogruppo sono più omogenei tra di loro e presentano una variabilità minore rispetto all’intera popolazione.

Con questa strategia di campionamento è possibile assicurare la rappresentatività dei sottogruppi della popolazione. Prima di effettuare l’estrazione del campione la popolazione viene suddivisa in strati basati sul fattore che influenza il livello del carattere da studiare. Quindi, all’interno di ciascuno strato si sceglie un campione con il metodo della randomizzazione semplice o sistematica.

Lo svantaggio del campionamento stratificato è che lo stato di tutte le unità di campionamento, rispetto ai fattori su cui è basata la stratificazione, deve essere noto prima di scegliere il campione.

Campionamento stratificato random: procedura

Si divide la popolazione in sottocampioni/strati omogenei in base ad una caratteristica della popolazione (caratteristica = regione di residenza, strati = Nord centro sud)
Si effettua un campionamento casuale semplice in ogni strato
I sotto campioni definiscono, nel loro insieme, il campione basato sulle variabili stratificanti

Esempio: Ricerca sul reddito degli italiani

Si divide la popolazione per professione in 4 strati: operai impiegati autonomi e professionisti.

Estraiamo in modo casuale un campione da ciascuno strato e si unifica il campione.

Campionamento stratificato proporzionale e non proporzionale

Stratificato proporzionale = riproduzione della stessa composizione degli strati nella popolazione. Utilizzando gli stessi rapporti di campionamento per i diversi strati.

Stratificato non proporzionale = sovra / sottorappresentazione di uno strato utilizzando rapporti di campionamento diversi per gli strati. Si usa quando si vogliono sovra rappresentare gli starti meno numerosi della popolazione.

Esempio st. proporzionale

Se gli operai sono il 40% della Popolazione, impiegati 40%, autonomi 15% e professionisti 5% e il campione è n= 1000 allora si prenderanno operai 400 impiegati 400, autonomi 150 e professionisti 50.

Esempio st. non proporzionale

Se operai 40%, impiegati 40%, autonomi 15% e professionisti 5% e n= 1000 sovra rappresentiamo i professionisti operai 400 impiegati 400, autonomi.

4. Campionamento a stadi

Si utilizza quando non è disponibile una lista complessiva delle unità della popolazione. A questo tipo di campionamento si ricorre per necessità in quanto le stime con esso ottenibili sono di solito meno efficienti (maggior variabilità campionaria) di quelle calcolate applicando un campione casuale semplice. E’ definito sulla base di scelte e procedure successive che passano per più stadi.

Procedura

La popolazione viene divisa in gruppi gerarchicamente ordinati
I casi vengono estratti con un procedimento “ad imbuto”

Esempio di tale situazione è dato dall’anagrafe che non esiste come unico archivio nazionale ma è suddivisa negli 8.103 comuni italiani.

In questo caso si procede:
1. estrazione casuale di un campione di comuni (unità di primo stadio)
2. estrazione di un campione casuale di famiglie (unità di secondo stadio) da ciascuna lista anagrafica per ogni comune selezionato

5. Campionamento per aree

E’ un tipo di campionamento a stadi dove lo stadio è un’area geografica.

Si utilizza quando non si dispone di una lista per la selezione delle unità e queste sono dislocate sul territorio.

In questo caso si procede ad una suddivisione in parti (aree) dell’intero territorio e all’estrazione di un campione di aree. Quindi si esplorano le aree campionate, allo scopo di enumerare esaustivamente le unità presenti al loro interno e produrre delle liste complete. Infine, dalle liste prodotte, si estraggono le unità campione da contattare per la rilevazione vera e propria.

Dal punto di vista teorico il campionamento per aree deve essere considerato una forma particolare di campionamento a più stadi.

Esempio: Ricerca sugli Italiani

MULTISTADI

Macroarea/Regioni/Province/Comuni/Zona rurale-urbana/individui

6. Campionamento a grappoli (cluster)

E’ un tipo di campionamento a stadi.

E’ utilizzato quando la popolazione risulta naturalmente divisa in gruppi / grappoli (Esempio: classi scolastiche, reparti aziendali ecc.).

Questa tecnica di campionamento è stata proposta nelle indagini di mercato per evitare di avere una distribuzione dei campioni in un territorio molto vasto. Le procedure da adottare prevedono di dividere la popolazione in cluster (solitamente delle zone geografiche). Si estraggono a caso dei cluster e si procede per l’estrazione del campione dai cluster selezionati.

Esempio Ricerca sugli studenti

Istituti superiori/Sezioni/Classi/tutti gli studenti delle classi (grappolo) campionate casualmente