Ho un ampio sondaggio in cui agli studenti è stato chiesto, tra le altre cose, il livello di istruzione della madre. Alcuni lo hanno saltato e alcuni hanno risposto in modo errato. Lo so, perché lì un sottocampione degli intervistati iniziali della madre è stato successivamente intervistato e ha posto la stessa domanda. (Sono sicuro che ci sono anche piccoli errori associati alle risposte delle madri.)
La mia sfida è decidere come sfruttare al meglio questa seconda fonte di dati più affidabile. Per lo meno posso usarlo per imputare i dati mancanti in modo più intelligente di quanto sarei in grado di fare se potessi fare affidamento solo su casi completi. Ma se 3/4 dei bambini i cui dati posso controllare, che rispondono "Mia madre non ha mai finito la scuola elementare" sono in contraddizione con la risposta della madre, sembrerebbe che dovrei usare l'imputazione per creare più set di dati per catturare l'incertezza lì. [aggiunto: ho detto 3/4 per fare un punto, ma ora che ho controllato i dati potrei anche dirti che più vicino al 40% sono discrepanti]
Userò personalmente l'educazione della madre come predittore in un modello misto, ma se qualcuno ha qualcosa da dire su altre situazioni, mi piacerebbe imparare anche su di loro.
Mi piacerebbe ricevere consigli in prima persona o nei dettagli. Grazie!
Aggiornamento : sto lasciando la domanda irrisolta per ora, anche se apprezzo le risposte di Will e Conjugate_Prior, sto sperando in un feedback più specifico e tecnico.
Il grafico a dispersione di seguito ti darà un'idea di come le due variabili sono correlate nei 10.000 casi in cui entrambe esistono. Sono nidificati in oltre 100 scuole. Correlano a 0,78, media risposta dello studente: 5,12 sd = 2,05, risposta della mamma, media = 5,02, sd = 1,92 La risposta dello studente manca in circa il 15% dei casi.