Qual è il vantaggio dell'imputazione rispetto alla costruzione di più modelli in regressione?


10

Mi chiedo se qualcuno potrebbe fornire alcune informazioni su se un motivo per cui l'imputazione per i dati mancanti è migliore della semplice costruzione di modelli diversi per i casi con dati mancanti. Soprattutto nel caso di modelli lineari [generalizzati] (posso forse vedere in casi non lineari che le cose sono diverse)

Supponiamo di avere il modello lineare di base:

Y=β1X1+β2X2+β3X3+ε

Ma il nostro set di dati contiene alcuni record con mancante. Nel set di dati di previsione in cui verrà utilizzato il modello ci saranno anche casi di mancante . Sembra che ci siano due modi per procedere:X 3X3X3

Più modelli

Potremmo dividere i dati in casi e non e creare un modello separato per ciascuno. Se supponiamo che sia strettamente correlato a il modello di dati mancante può sovrappesare per ottenere la migliore previsione a due predittori. Anche se i casi di dati mancanti sono leggermente diversi (a causa del meccanismo di dati mancanti), può incorporare quella differenza. Sul lato negativo, i due modelli si adattano solo a una parte dei dati ciascuno e non si stanno "aiutando" a vicenda, quindi l'adattamento potrebbe essere scadente in set di dati limitati.X 3 X 3 X 2 X 2X3X3X3X2X2

Imputazione

La regressione dell'imputazione multipla riempirebbe prima creando un modello basato su e e quindi campionando casualmente per mantenere il rumore nei dati imputati. Dato che si tratta ancora di due modelli, questo non finirà per essere lo stesso del metodo a modelli multipli sopra? Se è in grado di sovraperformare, da dove viene il guadagno? È solo che l'adattamento per è fatto sull'intero set?X 1 X 2 X 1X3X1X2X1

MODIFICARE:

Mentre la risposta di Steffan finora spiega che l'adattamento del modello del caso completo ai dati imputati supererà l'adattamento ai dati completi e sembra ovvio che sia vero il contrario, ci sono ancora alcuni malintesi sulla previsione dei dati mancanti.

Se ho il modello sopra, anche se si adatta perfettamente, sarà in generale un modello di previsione terribile se ho appena messo zero in previsione. Immagina, ad esempio, che allora sia completamente inutile ( ) quando è presente, ma sarebbe comunque utile in assenza di .X 2 β 2 = 0 X 3 X 3X2=X3+ηX2β2=0X3X3

La domanda chiave che non capisco è: è meglio costruire due modelli, uno usando e uno usando , oppure è meglio costruire un singolo modello (completo) e usare imputazione sui set di dati di previsione - o sono la stessa cosa?(X1,X2)(X1,X2,X3)

Portando la risposta di Steffan, sembrerebbe che sia meglio costruire il modello di caso completo su un set di addestramento imputato, e al contrario è probabilmente meglio costruire il modello di dati mancante sul set di dati completo con scartato. Questo secondo passaggio è diverso dall'uso di un modello di imputazione nei dati di previsione?X3

Risposte:


4

Penso che la chiave qui sia capire il meccanismo di dati mancanti; o almeno escluderne qualcuno. La creazione di modelli separati è simile al trattamento di gruppi mancanti e non mancanti come campioni casuali. Se la mancanza su X3 è correlata a X1 o X2 o ad altre variabili non osservate, le stime saranno probabilmente distorte in ciascun modello. Perché non utilizzare un'imputazione multipla sul set di dati di sviluppo e utilizzare i coefficienti combinati su un set di previsione con imputazione multipla? Media tra le previsioni e dovresti essere buono.


Ma se la mancanza è correlata a X1 o X2, allora sicuramente è bene avere due modelli separati, poiché incorporeranno tali informazioni. Vale a dire, quando in futuro avrò un X3 mancante saprò di essere di parte nella direzione corretta.
Korone

3

Presumo che tu sia interessato ad ottenere stime imparziali dei coefficienti di regressione. L'analisi dei casi completi fornisce stime imparziali dei coefficienti di regressione a condizione che la probabilità che manchi X3 non dipenda da Y. Ciò vale anche se la probabilità di mancanza dipende da X1 o X2 e per qualsiasi tipo di analisi di regressione.

Naturalmente, le stime potrebbero essere inefficienti se la percentuale di casi completi è piccola. In tal caso, è possibile utilizzare l'imputazione multipla di X3 dato X2, X1 e Y per aumentare la precisione. Vedi White and Carlin (2010) Stat Med per i dettagli.


Ah, quindi l'imputazione riguarda il giusto raggiungimento dei coefficienti? I coefficienti stessi non mi interessano - Voglio solo massimizzare il mio potere predittivo su nuovi dati (che possono anche avere mancanza)
Korone

1
Va bene. Per ottenere il massimo potere predittivo si vorrebbe anche una stima precisa e imparziale dei coefficienti del modello.
Stef van Buuren,

Se utilizzo solo i casi completi, non posso utilizzare quel modello per la previsione quando ho dati mancanti, perché i coefficienti saranno generalmente errati (ad esempio se esiste una correlazione tra X2 e X3). Devo quindi imputare X3 quando si effettua la previsione o costruire un secondo modello solo in X1 e X2. La domanda è se questo si traduce in previsioni diverse e quale è meglio?
Korone

Ah, penso di aver capito un punto che stai sollevando: se mi adatto al modello per la previsione completa dei casi usando l'imputazione, ciò migliorerà la previsione completa del caso, anziché adattarlo solo ai casi competitivi. La domanda rimanente è qual è la migliore per i casi incompleti?
Korone

Supponiamo che beta_1 = beta_2 = 0 e beta_3 = 1. Usare solo X1 e X2 preveda una costante, mentre la previsione usando X3 spiegherà parte della varianza di Y, e quindi si tradurrà in un errore residuo inferiore. Pertanto, la versione imputata produce previsioni migliori.
Stef van Buuren,

0

Uno studio su Harvard suggerisce un'imputazione multipla con cinque previsioni dei dati mancanti (ecco refererence, http://m.circoutcomes.ahajournals.org/content/3/1/98.full ). Anche allora, ricordo i commenti che i modelli di imputazione potrebbero non produrre ancora intervalli di copertura per i parametri del modello che non includono i valori reali sottostanti!

Con questo in mente, sembra meglio usare cinque semplici modelli ingenui per il valore mancante (supponendo che non manchi a caso nella discussione corrente) che producano una buona diffusione di valori, in modo che gli intervalli di copertura possano almeno contenere i parametri reali .

La mia esperienza nella teoria del campionamento è che molte risorse sono spesso impiegate per sottocampionare la popolazione senza risposta che, a volte, sembra essere molto diversa dalla popolazione di risposta. Come tale, consiglierei un esercizio simile nella regressione del valore mancante almeno una volta nel particolare campo di applicazione. Le relazioni non recuperate in una tale esplorazione dei dati mancanti possono essere di valore storico nella costruzione di migliori modelli di previsione dei dati mancanti per il futuro.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.