Mi chiedo se qualcuno potrebbe fornire alcune informazioni su se un motivo per cui l'imputazione per i dati mancanti è migliore della semplice costruzione di modelli diversi per i casi con dati mancanti. Soprattutto nel caso di modelli lineari [generalizzati] (posso forse vedere in casi non lineari che le cose sono diverse)
Supponiamo di avere il modello lineare di base:
Ma il nostro set di dati contiene alcuni record con mancante. Nel set di dati di previsione in cui verrà utilizzato il modello ci saranno anche casi di mancante . Sembra che ci siano due modi per procedere:X 3
Più modelli
Potremmo dividere i dati in casi e non e creare un modello separato per ciascuno. Se supponiamo che sia strettamente correlato a il modello di dati mancante può sovrappesare per ottenere la migliore previsione a due predittori. Anche se i casi di dati mancanti sono leggermente diversi (a causa del meccanismo di dati mancanti), può incorporare quella differenza. Sul lato negativo, i due modelli si adattano solo a una parte dei dati ciascuno e non si stanno "aiutando" a vicenda, quindi l'adattamento potrebbe essere scadente in set di dati limitati.X 3 X 3 X 2 X 2
Imputazione
La regressione dell'imputazione multipla riempirebbe prima creando un modello basato su e e quindi campionando casualmente per mantenere il rumore nei dati imputati. Dato che si tratta ancora di due modelli, questo non finirà per essere lo stesso del metodo a modelli multipli sopra? Se è in grado di sovraperformare, da dove viene il guadagno? È solo che l'adattamento per è fatto sull'intero set?X 1 X 2 X 1
MODIFICARE:
Mentre la risposta di Steffan finora spiega che l'adattamento del modello del caso completo ai dati imputati supererà l'adattamento ai dati completi e sembra ovvio che sia vero il contrario, ci sono ancora alcuni malintesi sulla previsione dei dati mancanti.
Se ho il modello sopra, anche se si adatta perfettamente, sarà in generale un modello di previsione terribile se ho appena messo zero in previsione. Immagina, ad esempio, che allora sia completamente inutile ( ) quando è presente, ma sarebbe comunque utile in assenza di .X 2 β 2 = 0 X 3 X 3
La domanda chiave che non capisco è: è meglio costruire due modelli, uno usando e uno usando , oppure è meglio costruire un singolo modello (completo) e usare imputazione sui set di dati di previsione - o sono la stessa cosa?
Portando la risposta di Steffan, sembrerebbe che sia meglio costruire il modello di caso completo su un set di addestramento imputato, e al contrario è probabilmente meglio costruire il modello di dati mancante sul set di dati completo con scartato. Questo secondo passaggio è diverso dall'uso di un modello di imputazione nei dati di previsione?