Home

Federica EU

1/26

Simona Balbi » 3.Il trattamento dei dati mancanti

Il trattamento dei dati mancanti: mancate risposte totali

Una possibile fonte di errore non campionario è la mancata risposta.
Si parla di mancata risposta “totale” quando un individuo rifiuta di collaborare alla rilevazione e i meccanismi di sostituzione previsti non sono efficaci. In questo caso l’assenza di una risposta causerebbe una riga di meno all’interno della matrice dei dati. Il rischio è che, come spesso accade, siano degli individui con determinate caratteristiche a non partecipare, inducendo una distorsione nei dati raccolti. Il metodo più diffuso di correzione consiste nella “riponderazione” delle unità. Assumendo note alcune caratteristiche della popolazione che si ritengono influenzare la non risposta totale, si partiziona il campione osservato e, con un meccanismo di post-stratificazione, si ricostruiscono le proporzioni presenti nella popolazione, attraverso un opportuno sistema di pesi. L’assunzione forte che si fa è quella di un comportamento omogeneo, ai fini del fabbisogno conoscitivo, all’interno degli strati individuati.

Il trattamento dei dati mancanti: mancate risposte parziali

Se un’unità campionaria risponde a molte domande, ma non a tutte, o se la risposta è giudicata non corretta e cancellata, si ha uno (o più) dati mancanti. In questo caso l’assenza di una risposta causa un vuoto all’interno della matrice dei dati. È importante capire se i dati mancanti e i dati osservati hanno strutture comuni, così da comprendere se il dato mancante è completamente casuale, oppure è tipico di soggetti con determinate caratteristiche della variabile considerata (es. il reddito per soggetti con reddito alto), o di un’altra variabile (es. il partito per cui votano per gli elettori di destra). Si distinguono così diversi tipi di dati mancanti, ponendo come elemento cruciale da valutare, nel loro trattamento, se è possibile assumere che il meccanismo che gli ha generati sia trascurabile, oppure comporti delle distorsioni.

L’imputazione di dati mancanti

Per imputazione s’intende la sostituzione dei valori mancanti o errati di un dato record con alternative coerenti e plausibili ottenute dai dati stessi (campionari e non), da fonti esterne all’indagine effettuata o dalla combinazione di entrambi, in conformità a regole e metodi prestabiliti.
Le procedure d’imputazione hanno l’obiettivo di ridurre le distorsioni introdotte dalla presenza di dati mancanti e di offrire, inoltre, maggiori garanzie sulla coerenza dei risultati derivati dalle analisi applicate, ma al contempo non confermano la generalità di tale riduzione, addirittura amplificando in taluni casi le distorsioni esistenti.
Mentre i produttori ufficiali di dati (es. ISTAT) hanno la necessità “istituzionale” di imputare i valori per fornirli agli utenti, indipendentemente dall’uso che questi ne faranno, sono stati sviluppati metodi statistici che non assegnano esplicitamente valori, ma includono il dato mancante all’interno della stessa analisi.

Il trattamento dei dati mancanti

La rilevazione

Strumenti

Esiste un’ampia gamma di possibilità tecniche per l’acquisizione delle informazioni, la cui scelta dipende da numerosi parametri connessi all’estensione degli scopi perseguiti, all’ampiezza del collettivo di riferimento, al costo ed al budget disponibili per la raccolta dei dati, al grado di precisione desiderato, e così via.

Il questionario

Il questionario, adoperato tipicamente nelle rilevazioni effettuate per mezzo di indagini campionarie, è il veicolo preferenziale tramite il quale raccogliere informazioni, ma al contempo rappresenta lo specchio degli obiettivi dell’indagine.

Il questionario

Struttura

Da un punto di vista generale può essere considerato come un insieme di domande cui è imposta una struttura logica, definita in modo che il soggetto intervistato possa fornire risposte rilevanti e consistenti ai quesiti posti.

Vincoli

I problemi dell’intervista e della formulazione del questionario richiedono indubbiamente un patrimonio di conoscenze tecniche, ma esigono soprattutto uno sforzo costante d’analisi empirica e verifica applicativa, in condizioni di rilevazione sempre nuove.

Il questionario

Formulazione dei quesiti

Ogni domanda è uno stimolo che sollecita una risposta: affinché ci sia omogeneità e confrontabilità nelle risposte, è necessario che i quesiti siano formulati in modo da produrre in soggetti simili un medesimo stimolo.

Linguaggio

Il linguaggio usato svolge un ruolo fondamentale:
è necessario utilizzare un vocabolario ed un lessico che permettano la comunicazione, usando termini semplici, non ambigui e comprensibili a tutte le unità rispondenti (wording) e costruendo quesiti non lunghi o “pesanti” per le troppe precisazioni (phrasing).

Il questionario

Quesiti condizionati

Attenzione alle domande “condizionanti”: nelle domande riguardanti argomenti come onesta, giustizia, dovere, spesso all’intervistato è indirettamente suggerita l’esistenza di una risposta socialmente accettabile.

Informazioni sensibili

Attenzione alle domande su temi “sensibili”: i soggetti intervistati in genere tendono a eludere i quesiti riguardanti la sessualità, il reddito, il patrimonio personale e così via.

Le fonti di errore extra campionario

Il dato mancante

L’errore determinato dalla mancanza d’espressione del dato può essere visto come la manifestazione di un errore non campionario.

Questa “mancanza” si manifesta sotto forma di non partecipazione alla rilevazione di unità statistiche appartenenti al campione e si traduce nell’assenza di un valore espresso per una singola variabile su un’osservazione.

Dati mancanti

In un’indagine statistica, è possibile identificare differenti categorie di “incompletezza”:

1) Se nessuna delle variabili oggetto d’interesse è misurata si ha una unit nonresponse: in questo caso l’assenza di una risposta causerebbe una riga di meno all’interno della matrice dei dati

2) Se l’unità selezionata risponde a molte delle domande proposte ma non a tutte, o se la risposta è giudicata non corretta e cancellata in fase di editing si ha una item nonresponse: in questo caso l’assenza di una risposta causa un vuoto all’interno della matrice dei dati.

Dati mancanti

La non risposta parziale può avere origini diverse:

Quando un’unità rispondente fornisce un’informazione incompleta perché non è disponibile a collaborare, o perché non è in grado di fornire tutte le informazioni richieste
Alle non risposte parziali possono essere associati anche i valori non ammissibili e le incongruenze logiche tra risposte a domande differenti, che si manifestano come contraddizioni rispetto a relazioni sostanziali (implicite nella realtà esaminata) o relazioni formali (costruite insieme al questionario) tra i valori assunti dalle variabili relative

A differenza delle non risposte totali, le non risposte parziali possono essere evidenziate solo nella fase di screening, cioè dopo la fase di raccolta delle informazioni, e quindi devono essere trattate con tecniche specificatamente approntate.

Dati mancanti

È utile capire se i dati mancanti e i dati osservati seguono o meno un certo andamento, e quindi se è possibile definire un modello (pattern) che descriva i meccanismi che li determinano: ciò è utile per individuare le procedure più adatte per effettuare l’analisi dei dati rilevati (e trattare quindi i dati mancanti), richiedendo i diversi approcci un differente impegno computazionale.

I pattern possono dipendere tanto dalla natura delle variabili quanto dall’aspetto del fenomeno che con esse si vuole investigare; è possibile considerare tre specifici pattern di dati (Huisman, 1999).

Se vengono a mancare per alcune unità interi blocchi di risposte, si può parlare di unit missing: ad esempio, nel corso di studi di tipo longitudinale, i dati mancanti seguono questo modello quando parte dei soggetti decide di abbandonare l’indagine prematuramente, causando uno squilibrio nella matrice dei dati.

Se le osservazioni e le variabili possono essere ordinate in modo che per uno stesso set di unità campionarie, l’insieme delle variabili y_j ha più valori registrati dell’insieme delle variabili y_{j +1} (queste ultime sono cioè maggiormente soggette a non risposta), si ha allora un pattern monotono.

Se non vengono posti ai soggetti intervistati tutti i quesiti ma un sottoinsieme, allora si ha un pattern di dati missing by design; in questo caso è il ricercatore a determinare la mancanza di dati, ad esempio per questioni di ordine pratico (tempo insufficiente per portare a termine l’intervista, scarsa volontà di collaborazione, e così via).

Dati mancanti

La conoscenza (o la mancanza di conoscenza) dei meccanismi per i quali è possibile che in un’indagine alcuni dati non sono disponibili o sono incompleti, è un elemento cruciale per determinare l’analisi più appropriata per trattare i dati raccolti, e decidere il modo in cui devono essere interpretati i risultati dell’indagine.

A volte tali meccanismi sono sotto il controllo dei ricercatori; è possibile considerare, ad esempio, il processo di selezione delle unità che entrano a far parte del campione come un meccanismo che genera dati mancanti, poiché i valori di alcune variabili sono registrati per l’intero collettivo (nello specifico, delle variabili che sovrintendono alla selezione delle unità che entrano a far parte del campione), mentre i valori di altre variabili, adoperate strettamente nell’ambito dell’indagine, sono registrati solo per le osservazioni campionarie.

Assunto che il collettivo di riferimento sia costituito da N unità statistiche e che si considerino K variabili, la matrice dei dati iniziale sarà allora costituita da NxK elementi; indicate le variabili di selezione del campione con Y_c e le variabili utilizzate nell’indagine con Y_q, è possibile definire una variabile D_i che assuma valore 1 se l’i-ma unità è campionata e valore 0 nel caso contrario: in tale circostanza, supposto che il procedimento utilizzato per la selezione del campione sia di tipo probabilistico, si considera trascurabile (ignorable) il meccanismo che porta alla perdita di una parte delle informazioni.

Dati mancanti

È però possibile che il disegno di campionamento scelto dai ricercatori non sia efficiente, o che sia riscontrabile un alto tasso di non rispondenti tra le unità selezionate: in questi casi è difficile tenere sotto controllo la presenza di dati mancanti e non è possibile trascurare le cause che hanno prodotto tale mancanza.

Riprendendo la notazione usata in precedenza, indicate con Y_q le variabili oggetto d’indagine, è possibile definire una variabile R_ij che assuma 1 se l’unità risponde e 0 nel caso contrario: in presenza di dati mancanti è necessario considerare se il meccanismo che determina non risposta è trascurabile o no.

Data una certa popolazione, si supponga che y_i (con i=1,…,N) sia il valore della variabile Y assunto dalla i-ma unità; se si estrae un campione casuale di numerosità n<N ma è possibile registrare valori validi della variabile Y solo per le prime m unità, si avrà allora un campione di ampiezza ridotta, poiché i valori y_m+1,…,y_n saranno mancanti. Gli analisti possono decidere di effettuare ugualmente l’indagine utilizzando i valori registrati, ma se la probabilità che yi sia osservata dipende dal valore assunto dalla stessa variabile, allora non è possibile ignorare il meccanismo che ha causato una perdita d’informazione.

Dati mancanti

Si consideri, oltre alla variabile Y già descritta, una variabile X non soggetta a non risposta, per la quale sia possibile registrare n determinazioni campionarie: si supponga, ad esempio, che la variabile X sia una variabile di struttura (sesso, età, titolo di studio, e così via), mentre la variabile Y rappresenti il reddito annuo dell’intervistato.

Quando si è in presenza di dati con questo pattern è utile classificare il meccanismo che provoca la mancanza di dati a seconda che la probabilità di risposta sia indipendente dalla variabile X e dalla variabile Y, dipenda da X ma non da Y, oppure dipenda da X ed eventualmente anche da Y.

Missing completely at random

Se la probabilità di risposta è indipendente sia da X che da Y si dice che i dati mancanti sono missing at random e che i dati osservati sono observed at random, o più semplicemente che i dati mancanti sono missing completely at random: in questo caso i valori osservati della variabile Y formano un sottocampione casuale dei valori già campionati.

Missing at random

Se la probabilità di risposta dipende da X ma non da Y, allora si dice che i dati mancanti sono missing at random: quando ciò si verifica il pattern che definisce il meccanismo di non risposta è ricostruibile o prevedibile dalle altre variabili coinvolte nell’indagine piuttosto che dalla specifica variabile per la quale mancano alcune determinazioni.

Si supponga, ad esempio, di effettuare uno studio sul livello d’ansietà di alcuni individui nel tempo: i partecipanti con un basso livello di autostima saranno meno propensi ad essere coinvolti nelle successive sessioni di ricerca, così il ricercatore può utilizzare tale parametro per prevedere il modello di non risposta.

Il fenomeno che genera non risposta non è dato dalla variabile relativa, ma da elementi indirettamente legati all’indagine.

Missing not at random

Se la probabilità di risposta dipende da entrambe le variabili il meccanismo che causa la non risposta non è trascurabile; se un partecipante ad uno studio sulla perdita di peso non si presenta ad una delle verifiche periodiche, i dati relativi potrebbero mancare per fattori non trascurabili: in contrasto con il caso precedente, il meccanismo che determina la perdita di informazioni può essere spiegato soltanto dalla variabile che presenta mancanze.

Missing data: Strategia

Le azioni da perseguire per il trattamento dei dati mancanti comportano spesso costi e tempi di realizzazione elevati: se il numero di dati incompleti o mancanti è poco rilevante, allora l’esiguità del problema non giustifica l’introduzione di complesse procedure correttive; per contro, la frequenza di tassi di mancata risposta più elevati evidenzia una non trascurabilità del fenomeno e delle conseguenze che esso comporta.

Se è possibile identificare le variabili che spiegano il perché della mancanza (mechanism variables) allora si ha il controllo del meccanismo che tale mancanza genera.

Le variabili che sono collegate più frequentemente al meccanismo di non risposta riguardano il livello d’istruzione, lo status sociale, il bisogno di approvazione o la motivazione: se il ricercatore ha sotto controllo tutte le variabili che possono spiegare il meccanismo di non risposta allora questo è trascurabile, nel senso che i risultati della ricerca non saranno soggetti a distorsioni per la presenza di non risposte.

Missing data: strategie

Nessun procedimento analitico è in grado di affrontare il problema delle non risposte, e dei dati mancanti in generale, nella fase di raccolta dei dati; non essendo gli strumenti a disposizione dei ricercatori sufficienti a tenere sotto controllo il fenomeno delle mancate risposte, è necessario ricorrere a forme d’intervento successivo.

Obiettivo non è quello di eliminare completamente il fenomeno, non potendo far affidamento su alcun metodo statistico che corregga tutte le differenze, ma ottenere una riduzione della non risposta.

Le metodologie utilizzate per l’analisi dei dati parzialmente mancanti sono molteplici, e la varietà dei metodi proposti in letteratura è cruciale per operare la scelta più adeguata: ad ogni modo, tutti i metodi per il trattamento dei dati incompleti sono basati sull’assunzione che non è possibile verificarne la funzionalità utilizzando i soli dati a disposizione.

Missing data: strategie

Le principali strategie proposte per il trattamento dei dati mancanti

Procedure basate sull’analisi delle unità completamente registrate: l’espediente utilizzato è quello di non considerare nell’analisi le unità per le quali manca, in alcuni campi, la registrazione dei valori; le metodologie basate su tale procedura sono facili da attuare nel caso in cui si abbiano piccole quantità di dati mancanti, ma possono condurre a forti distorsioni per il fatto che alcune unità sono state eliminate.

Procedure basate sull’imputazione: quando i dati memorizzati sono mancanti o errati è possibile adottare delle tecniche d’imposizione di codici plausibili in modo da creare un set di dati completo che può poi essere analizzato con le tecniche standard; talvolta è possibile che tale procedimento, nel singolo caso, produca a sua volta un errore (poiché il codice “forzato” è plausibile ma non necessariamente vero), anche se i codici usati non minano l’accuratezza delle statistiche di sintesi.

Procedure basate su modelli: questa classe generale di procedure prevede che sia generato un modello per i dati parzialmente mancanti, il procedimento inferenziale è quindi basato sulla verosimiglianza sotto quel particolare modello.

Missing data: strategie

Si consideri una matrice rettangolare nella quale sono registrati i valori relativi a k variabili per le n osservazioni campionarie selezionate: in presenza di dati incompleti, una delle strategie adottabili prevede che siano eliminate le unità per le quali mancano alcuni valori, e che l’analisi sia effettuata solo sulle unità con registrazioni complete (complete-case analysis); ciò produce inevitabilmente delle distorsioni, poiché si finisce per ridurre ulteriormente l’informazione disponibile, ma è indubbiamente un metodo di semplice implementazione, non essendo necessaria alcuna modifica dei dati rilevati per lo svolgimento delle analisi standard.

la listwise deletion, in base alla quale si escludono le unità per le quali manchi anche la registrazione di uno solo dei valori delle variabili utilizzate nell’indagine: tale tecnica per trattare i dati incompleti è implementata di default dai più diffusi software statistici, come SAS o SPSS
la pairwise deletion, più complessa, che prevede l’inclusione di una data unità solo se vengono registrati i valori relativi ad una predeterminata coppia di variabili delle quali si vuole stimare la correlazione: tale soluzione fornisce la miglior stima per ogni correlazione, in altre parole utilizza tutte le informazioni disponibili

Missing data: strategie

Per imputazione s’intende la sostituzione dei valori mancanti o errati di un dato record con alternative coerenti e plausibili ottenute dai dati stessi (campionari e non), da fonti esterne all’indagine effettuata o dalla combinazione di entrambi, in conformità a regole e metodi prestabiliti.

Le procedure d’imputazione possono favorire la riduzione delle distorsioni introdotte dalla presenza di missing data, offrendo inoltre maggiori garanzie sulla consistenza dei risultati derivati dalle analisi applicate, ma al contempo non confermano l’universalità di tale riduzione, addirittura amplificando in taluni casi le distorsioni esistenti.

L’immissione di dati effettuata ricorrendo a codici casuali, o ottenuti formulando congetture, comporta notevoli rischi: il sistema migliore per trattare i dati mancanti, secondo alcuni studiosi, è quello di utilizzare il codice “nessuna risposta”, rimandando la valutazione del fenomeno alla fase d’interpretazione dei risultati.

Imputazione della media
Imputazione della mediana
Hot Deck imputation

Missing data: Hot deck imputation

La ragione primaria per ricorrere a procedure hot deck è la necessità di ridurre le distorsioni prodotte dal verificarsi del fenomeno delle mancate risposte; l’imputazione hot deck a tal scopo utilizza frequentemente dei processi di classificazione di tutte le unità in gruppi distinti e quanto più omogenei all’interno, in base a caratteristiche precise stabilite di volta in volta in relazione al contesto dell’analisi: per ogni valore mancante si imputa un valore presente nello stesso subset, sotto l’assunzione che all’interno dei gruppi definiti i non rispondenti seguono la stessa distribuzione dei rispondenti.

Hot deck imputation within adjustment cells

Una volta costruite le celle d’aggiustamento, s’imputano i valori mancanti in ogni singola cella scegliendo tra i valori registrati nelle stesse.

Nearest neighbor hot deck imputation

Prevede la definizione di una metrica per misurare la distanza tra le diverse unità, e scegliendo quindi come valori da imputare quelli relativi alle unità rispondenti più vicine a quelle che sono invece affette da incompletezza.