Imputazione multipla e selezione del modello


21

L'imputazione multipla è abbastanza semplice quando si dispone di un modello lineare a priori che si desidera stimare. Tuttavia, le cose sembrano essere un po 'più complicate quando si vuole effettivamente fare una selezione del modello (ad esempio, trovare il set "migliore" di variabili predittive da un set più ampio di variabili candidate - sto pensando specificamente a LASSO e ai polinomi frazionari usando R).

Un'idea sarebbe quella di adattare il modello nei dati originali con valori mancanti, quindi rivalutare questo modello nei set di dati MI e combinare le stime normalmente. Tuttavia, questo sembra problematico poiché ci si aspetta una distorsione (o altrimenti perché l'MI in primo luogo?), Che potrebbe portare a selezionare un modello "sbagliato" dall'inizio.

Un'altra idea sarebbe quella di passare attraverso qualsiasi processo di selezione del modello che stai usando in ogni set di dati MI - ma come combineresti i risultati se includessero insiemi di variabili differenti?

Un pensiero che avevo era quello di impilare un set di set di dati MI e analizzarli come un unico set di dati che sarebbe quindi possibile utilizzare per adattare un singolo modello "migliore" e includere un effetto casuale per tenere conto del fatto che si stanno utilizzando misure ripetute per ogni osservazione.

Sembra ragionevole? O forse incredibilmente ingenuo? Qualsiasi suggerimento su questo problema (selezione del modello con imputazione multipla) sarebbe molto apprezzato.


2
Modifica questo post per cambiare "adattamento modello" in "selezione modello". Sarebbe anche utile discutere quale metodo stai usando. Ad esempio, se viene utilizzata la selezione del modello graduale basata su valori p, l'impilamento dei dati imputati NON è assolutamente consentito. È possibile disegnare campioni bootstrap dei propri dati, compresi i dati mancanti applicare MI e il successivo processo di selezione del modello e calcolare un "valore p" esatto per il modello selezionato.
AdamO,

Nel tuo secondo paragrafo, perché pensi che quel metodo manchi il punto di imputazione multipla? Inoltre, quale software stai usando?
Peter Flom - Ripristina Monica

Risposte:


10

Ci sono molte cose che potresti fare per selezionare le variabili da moltiplicare i dati imputati, ma non tutte producono stime appropriate. Vedi Wood et al (2008) Stat Med per un confronto di varie possibilità.

Ho trovato utile la seguente procedura in due passaggi nella pratica.

  1. Applicare il metodo di selezione delle variabili preferito in modo indipendente a ciascuno dei set di dati imputati. Ti ritroverai con m modelli diversi. Per ogni variabile, contare il numero di volte che appare nel modello. Seleziona le variabili che compaiono in almeno la metà dei modelli m .mmm
  2. Utilizzare il valore p della statistica Wald o del test del rapporto di verosimiglianza calcolato dai set di dati moltiplicati come criterio per un'ulteriore selezione graduale del modello.m

Il passaggio di preselezione 1 è incluso per ridurre la quantità di calcolo. Vedere http://www.stefvanbuuren.nl/mi/FIMDmaterials/src/fimd6.r.txt (sezione 6.4.2) per un esempio di codice del metodo in due fasi in R utilizzando mice(). In Stata, puoi eseguire il passaggio 2 (su tutte le variabili) con mim:stepwise.


Stef, includi il link alla pubblicazione Stat Med. Ho anche cercato di abbellire un po 'la tua risposta.
StasK

1
La routine proposta può avere senso solo quando si seleziona da un set predefinito di regressori. Ma se scelgo dire una tendenza quadratica, spline B a 5 e 9 nodi, e può essere un CARRELLO, non sono sicuro di come applicare questa proposta.
StasK

Stas, la procedura presuppone che il modello di imputazione sia corretto. In particolare, il metodo di imputazione deve acquisire adeguatamente tutte le funzionalità nei dati a cui potresti essere interessato in seguito. Quindi, se si desidera includere termini quadratici o spline B nella propria analisi dei dati completi, il modello di imputazione dovrebbe essere impostato in modo tale che tali caratteristiche siano conservate nei dati imputati (Nota: questo potrebbe effettivamente essere difficile da ottenere , ma questo è un argomento a sé stante). Dato che il modello di imputazione è correttamente specificato, direi che si applica la procedura di selezione in due passaggi.
Stef van Buuren,

Bene, allora in pratica il modello di imputazione deve essere il modello più ricco possibile. Mi sono imbattuto in situazioni in cui non ha funzionato del tutto, come previsioni perfette in modelli logistici iperparametrizzati.
Attacco

Concordato. Dovrai imputare con il modello più ricco possibile. Quindi, prima definisci le analisi più complesse che vorresti fare e adatta il modello di imputazione a quello. Ciò potrebbe essere difficile da realizzare in pratica e diventa più difficile con l'aumentare della complessità del modello di dati completi. Non c'è pranzo libero. La previsione perfetta nella regressione logistica è stata risolta in vari modi e non è necessario presentare un grosso ostacolo.
Stef van Buuren,

4

È semplice: è possibile applicare le regole di combinazione MI standard, ma gli effetti delle variabili che non sono supportate nei set di dati imputati saranno meno pronunciati. Ad esempio, se una variabile non è selezionata in uno specifico set di dati imputati, la sua stima (incl. Varianza) è zero e questo deve riflettersi nelle stime utilizzate quando si usa l'imputazione multipla. Puoi prendere in considerazione il bootstrap per costruire intervalli di confidenza per incorporare l'incertezza nella selezione dei modelli, dai un'occhiata a questa recente pubblicazione che affronta tutte le domande: http://www.sciencedirect.com/science/article/pii/S016794731300073X

Eviterei di usare approcci pragmatici come la selezione di una variabile se è selezionata in set di dati m / 2 o simile, perché l'inferenza non è chiara e più complicata di quanto sembri a prima vista.


3

Avevo lo stesso problema.

La mia scelta è stata il cosiddetto "lasso a imputazione multipla". Fondamentalmente combina tutti i set di dati imputati insieme e adotta il concetto di lazo di gruppo: ogni variabile candidata genererebbe m variabili fittizie. Ogni variabile fittizia corrisponde a un set di dati imputato.

Quindi tutte le variabili m fittizie vengono raggruppate. si sia scartare di una variabile candidato m variabili dummy in tutti i set di dati figurativi o tenerli in tutti i set di dati figurativi.

Quindi la regressione del lazo si adatta effettivamente a tutti i set di dati imputati congiuntamente.

Controlla la carta :

Chen, Q. & Wang, S. (2013). "Selezione variabile per dati con moltiplicazioni imputate con applicazione allo studio sull'esposizione alla diossina", Statistics in Medicine, 32: 3646-59.

E un programma R pertinente


Penso di averti effettivamente
contattato

1

Ho riscontrato un problema simile: ho un set di dati in cui sapevo fin dall'inizio che volevo includere tutte le variabili (ero interessato ai coefficienti più che alla previsione), ma non conoscevo un a priori quali interazioni dovrebbero essere specificate.

Il mio approccio era quello di scrivere una serie di modelli candidati, eseguire più imputazioni, stimare i diversi modelli e semplicemente salvare e calcolare la media degli AIC da ciascun modello. È stata selezionata la specifica del modello con la media più bassa di AIC.

Ho pensato di aggiungere una correzione in cui penalizzo la varianza tra imputazione in AIC. Riflettendoci, tuttavia, sembrava inutile.

L'approccio mi è sembrato abbastanza semplice, ma l'ho inventato da solo e non sono un famoso statistico. Prima di usarlo, potresti voler aspettare che le persone mi correggano (il che sarebbe il benvenuto!) O vota questa risposta.


Grazie per la risposta. Sfortunatamente, ciò a cui sono veramente interessato è l'utilizzo di metodi più automatizzati / esplorativi di selezione dei modelli che non si prestano a selezionare prima un ragionevole insieme di modelli candidati.
DL Dahly,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.