Imputazione per tenere conto dell'errore sistematico nelle risposte al sondaggio

Ho un ampio sondaggio in cui agli studenti è stato chiesto, tra le altre cose, il livello di istruzione della madre. Alcuni lo hanno saltato e alcuni hanno risposto in modo errato. Lo so, perché lì un sottocampione degli intervistati iniziali della madre è stato successivamente intervistato e ha posto la stessa domanda. (Sono sicuro che ci sono anche piccoli errori associati alle risposte delle madri.)

La mia sfida è decidere come sfruttare al meglio questa seconda fonte di dati più affidabile. Per lo meno posso usarlo per imputare i dati mancanti in modo più intelligente di quanto sarei in grado di fare se potessi fare affidamento solo su casi completi. Ma se 3/4 dei bambini i cui dati posso controllare, che rispondono "Mia madre non ha mai finito la scuola elementare" sono in contraddizione con la risposta della madre, sembrerebbe che dovrei usare l'imputazione per creare più set di dati per catturare l'incertezza lì. [aggiunto: ho detto 3/4 per fare un punto, ma ora che ho controllato i dati potrei anche dirti che più vicino al 40% sono discrepanti]

Userò personalmente l'educazione della madre come predittore in un modello misto, ma se qualcuno ha qualcosa da dire su altre situazioni, mi piacerebbe imparare anche su di loro.

Mi piacerebbe ricevere consigli in prima persona o nei dettagli. Grazie!

Aggiornamento : sto lasciando la domanda irrisolta per ora, anche se apprezzo le risposte di Will e Conjugate_Prior, sto sperando in un feedback più specifico e tecnico.

Il grafico a dispersione di seguito ti darà un'idea di come le due variabili sono correlate nei 10.000 casi in cui entrambe esistono. Sono nidificati in oltre 100 scuole. Correlano a 0,78, media risposta dello studente: 5,12 sd = 2,05, risposta della mamma, media = 5,02, sd = 1,92 La risposta dello studente manca in circa il 15% dei casi.

inserisci qui la descrizione dell'immagine

data-imputation

— Michael Bishop
fonte

Per curiosità, è stata la prima opzione di risposta a quella domanda educativa "Mia madre non ha mai finito la scuola elementare"? In tal caso, sarei preoccupato per l'accuratezza del resto dei risultati del test per quei partecipanti.

— Michelle

"Fino a che punto è andata a scuola?" - 1) Ottavo grado o meno

— Michael Bishop,

Probabilmente hai un sottoinsieme di partecipanti al test che hanno selezionato la prima opzione di risposta per ogni domanda. Puoi controllarlo?

— Michelle,

Quella trama è molto penetrante. Sembra abbastanza simmetrico, il che non è quello che ti aspetteresti se in realtà un gruppo di bambini avesse appena spuntato la prima risposta. Se così fosse, i casi tenderanno a raggrupparsi lungo la riga inferiore. Ovviamente "sembrare" simmetrico non lo garantisce in realtà, ma è un buon inizio. Anche la forte correlazione che osservi tra la risposta della madre e quella del bambino è coerente con questo.

— Sarà il

Ahh. Vedo. Quindi sarei anche (più di un po ') riluttante a imputare i dati esistenti e consiglierei che non è stato fatto affatto, nonostante questo tipo di argomento: gking.harvard.edu/gking/files/measure.pdf

— conjugateprior

Risposte:

La prima cosa da notare è che le tue variabili sono: "cosa ha detto lo studente sull'educazione della madre" e "cosa ha detto la madre dello studente sull'educazione della madre dello studente". Chiamali rispettivamente S e M ed etichetta il vero livello inosservato dell'educazione della madre come T.

S e M hanno entrambi valori mancanti e non c'è nulla di sbagliato (modulo l'osservazione sotto) nel mettere M e S in un modello di imputazione ma utilizzandone solo uno nell'analisi successiva. Il contrario sarebbe sempre sconsigliabile.

Questo è separato da altre tre domande:

Un valore mancante significa che gli studenti non sanno o non vogliono dire così tanto sulle loro madri?
Come usare S e M per conoscere T?
Hai il giusto tipo di mancanza per far funzionare l'imputazione multipla?

Ignoranza e mancanza

Potresti essere interessato a T, ma non è necessario: le percezioni del livello di istruzione (tramite S, e forse M) o la mancanza di conoscenza degli studenti potrebbero essere più interessanti dal punto di vista causale di T stesso. L'imputazione può essere una via ragionevole per la prima, ma può essere o meno per la seconda. Devi decidere tu.

Conoscere T

Supponiamo che tu sia effettivamente interessato a T. In assenza di una misurazione del gold standard (poiché a volte dubiti di M) è difficile sapere come potresti combinare in modo non arbitrale S e M per conoscere T. Se, d'altra parte, lo fossi disposto a trattare la M come corretta quando è disponibile, quindi è possibile utilizzare S per prevedere M in un modello di classificazione che contiene altre informazioni dagli studenti e quindi utilizzare M anziché S nell'analisi finale. La preoccupazione qui sarebbe sulla distorsione da selezione nei casi su cui ti sei allenato, il che porta al terzo problema:

Missingness

Se l'imputazione multipla può funzionare dipende dal fatto che i dati siano completamente mancanti a caso (MCAR) o mancanti a caso (MAR). Manca S in modo casuale (MAR)? Forse no, dal momento che gli studenti potrebbero vergognarsi di rispondere della mancanza di istruzione della madre e saltare la domanda. Quindi il valore da solo determina se mancherà e l'imputazione multipla non può aiutare qui. D'altra parte, se l'istruzione bassa tende a cagare con qualcosa che viene chiesto e parzialmente risposto al sondaggio, ad esempio un indicatore di reddito, allora la MAR può essere più ragionevole e l'imputazione multipla ha qualcosa su cui aggrapparsi. M manca a caso? Si applicano le stesse considerazioni.

Infine, anche se sei interessante in T e adotti un approccio di classificazione, vorresti comunque imputare per adattarlo a quel modello.

— conjugateprior
fonte

Se si suppone che il "tasso di contraddizione" sia lo stesso per l'intero campione come per il sottocampione le cui madri sono state interrogate, il sottocampione deve essere stato disegnato in modo casuale. Nella tua descrizione non dici, quindi sollevo questo problema perché penso che abbia importanti implicazioni su come o se puoi usare queste informazioni dal sottocampione per trarre conclusioni sull'intero campione di studenti.

Mi sembra che ci siano tre aspetti di questo problema di contraddizione.

1 è il tasso di contraddizione. È davvero il caso che i 3/4 degli studenti abbiano indovinato?

2 è il grado di errore - una cosa è dire che tua madre non ha mai finito la scuola elementare quando in realtà l'ha completata ma si è fermata lì e un'altra è dire che non ha mai completato la scuola elementare quando ha un dottorato di ricerca.

3 è la proporzione del campione che è possibile effettuare un controllo incrociato. Se stai tracciando queste conclusioni su un sottocampione di 20, scommetto che le stime sono abbastanza instabili e probabilmente non valgono molto.

Mi sembra che ciò che farai dipenderà dalla tua risposta a queste domande e alla domanda che ho sollevato inizialmente. Ad esempio, se 1 è abbastanza alto e 3 è piuttosto alto, allora potrei semplicemente usare il sottocampione e averlo fatto. Se 1 è alto ma 2 è basso, il problema non sembra essere così grave e, di nuovo, potrebbe non valere la pena preoccuparsene.

Probabilmente vale anche la pena sapere se l'errore è casuale o sistematico. Se gli studenti tendono a sottovalutare sistematicamente l'educazione della madre, allora è più problematico che se a volte sbagliano completamente.

Ho fatto qualche imputazione su un paio di articoli e di conseguenza mi sembra di creare sempre più problemi per me stesso. I revisori, almeno nella mia zona, spesso non hanno una buona padronanza del metodo e sono quindi sospettosi del suo utilizzo. Sento che a volte è meglio, dal punto di vista della pubblicazione, semplicemente riconoscere il problema e andare avanti. Ma in questo caso non stai davvero "imputando i dati mancanti" ma stai introducendo una sorta di varianza di errore prevista per la variabile. È una domanda molto interessante e, mettendo da parte tutte le preoccupazioni, non sono nemmeno sicuro di come farei questo se avessi deciso che fosse il miglior modo di agire

— Volere
fonte

Grazie Will, ho chiarito alcune cose nel mio post originale. Il sottocampione è casuale. Ho estratto la stat 3/4 da un cappello per fare un punto. La vera statistica è inferiore. Posso effettuare un controllo incrociato di circa 10.000 casi. Sono sicuro che l'errore non è puramente casuale.

— Michael Bishop,