Come posso unire i valori p di bootstrap su set di dati moltiplicati?


12

Sono preoccupato per il problema che vorrei avviare il bootstrap del valore p per una stima di da dati moltiplicati (MI), ma che non mi è chiaro come combinare i valori p tra i set MI.θ

Per i set di dati MI, l'approccio standard per arrivare alla varianza totale delle stime utilizza le regole di Rubin. Vedere qui per una revisione del pooling di set di dati MI. La radice quadrata della varianza totale funge da stima dell'errore standard di . Tuttavia, per alcuni stimatori la varianza totale non ha forma chiusa nota o la distribuzione campionaria non è normale. La statistica potrebbe quindi non essere distribuita in t, neppure asintoticamente.θ / s e ( θ )θθ/se(θ)

Pertanto, nel caso dei dati completo, un'opzione alternativa è quella di avviare la statistica per trovare varianza, un valore p e un intervallo di confidenza, anche se la distribuzione di campionamento non è normale e la sua forma chiusa sconosciuta. Nel caso MI ci sono quindi due opzioni:

  • Pool la varianza avviata nei set di dati MI
  • Unisci il valore p o i limiti di confidenza tra i set di dati MI

La prima opzione avrebbe quindi usato nuovamente le regole di Rubin. Tuttavia, ritengo che ciò sia problematico, se ha una distribuzione di campionamento non normale. In questa situazione (o più in generale, in tutte le situazioni) è possibile utilizzare direttamente il valore p di bootstrap. Tuttavia, nel caso dell'MI, ciò porterebbe a più valori di p o intervalli di confidenza, che devono essere raggruppati in set di dati MI.θ

Quindi la mia domanda è: come devo mettere in comune più valori p (o intervalli di confidenza) avviati tra i set di dati imputati in modo multiplo?

Gradirei qualsiasi suggerimento su come procedere, grazie.


Forse utile: Missing Data, Imputation and the Bootstrap (Efron 1992) statistics.stanford.edu/sites/default/files/BIO%2520153.pdf
DL Dahly

@DLDahly Hmm, non ho familiarità con quel documento, ma l'idea sembra essere di avviare prima il bootstrap e quindi eseguire un'imputazione multipla. L'OP sembra essere una stima del bootstrap dai set di dati MI.
Tchakravarty,

@fgnu In effetti, la procedura standard per arrivare alla varianza totale di una stima tramite bootstrap sarebbe quella di avviare la varianza all'interno di ogni set di dati MI e quindi applicare le regole di Rubin per raggruppare la varianza avviata tra i set di dati MI.
Tomka,

Risposte:


6

Penso che entrambe le opzioni abbiano come risultato la risposta corretta. In generale, preferirei il metodo 1 in quanto preserva l'intera distribuzione.

kmmk×m

Per il metodo 2, utilizzare la procedura Licht-Rubin. Vedere Come ottenere valori p aggregati sui test eseguiti in più set di dati imputati?


+1 - Se l'obiettivo è comprendere la variabilità delle stime tra i set di dati MI, farei il bootstrap all'interno di ciascun set di dati MI e guarderei le distribuzioni totali e specifiche del parametro MI.
DL Dahly,

@ Stef-van-Buuren Sembra che ciò che DL Dahly suggerisce sia equivalente a mettere in comune la varianza boostrapped tra i set di MI. Preferiresti ancora il tuo metodo uno (aggiungi tutti i set di dati avviati) rispetto a questo approccio "indiretto"?
tomka,

@tomka. Sicuramente farei lo stesso di DL Dahly e studierei l'interno e tra le distribuzioni di imputazione. Al fine di integrare entrambi i tipi di distribuzioni, dobbiamo combinarli in qualche modo. Il mio consiglio è semplicemente di mescolarli.
Stef van Buuren il

6

Questa non è una letteratura con cui ho familiarità, ma un modo per affrontarlo potrebbe essere quello di ignorare il fatto che si tratta di valori p di bootstrap e guardare la letteratura sulla combinazione di valori p attraverso set di dati moltiplicati.

In quel caso, si applicano Li, Meng, Raghunathan e Rubin (1991) . La procedura si basa sulle statistiche di ciascuno dei set di dati imputati, ponderate utilizzando una misura della perdita di informazioni dovuta all'imputazione. Incontrano problemi relativi alla distribuzione congiunta delle statistiche tra le imputazioni e fanno alcune ipotesi semplificanti.

Di relativo interesse è Meng (1994) .

Aggiornare

Una procedura per combinare i valori di p attraverso set di dati moltiplicati è descritta nella tesi di dottorato di Christine Licht, Ch. 4 . L'idea, che lei attribuisce a Don Rubin, è essenzialmente quella di trasformare i valori di p in modo che vengano normalmente distribuiti, che possono quindi essere combinati tra i set di dati MI utilizzando le regole standard per la combinazione di z-statistics.


Se capisco il Li et al. funziona correttamente, si applica alle statistiche ottenute da ogni set MI. Ad esempio, se ottieni Pearson Chi² su ogni set, le loro regole potrebbero essere applicate per combinarlo per inferenza tra i set. Anche un test Wald potrebbe essere condotto, per esempio. Ma nel caso di un bootstrap non si ottiene una statistica da raggruppare (ma solo un valore p). Quindi non sono sicuro che ci sia qualcosa in Li et al. che potrebbe essere applicato al bootstrap p.
Tomka,

1
@tomka Ho aggiornato la mia risposta.
Tchakravarty,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.