Come si possono gestire i dati mancanti quando si usano spline o polinomi frazionari?


12

Sto leggendo la costruzione di modelli multivariabili: un approccio pragmatico all'analisi della regressione basata su polinomi frazionari per la modellazione di variabili continue di Patrick Royston e Willie Sauerbrei. Finora sono rimasto impressionato ed è un approccio interessante che non avevo mai considerato prima.

Ma gli autori non si occupano dei dati mancanti. Anzi, a p. 17 dicono che i dati mancanti "introducono molti problemi aggiuntivi. Non considerati qui."

L'imputazione multipla funziona con polinomi frazionari>

FP è, in qualche modo (ma non tutto) un'alternativa alle spline. È più facile gestire i dati mancanti per la regressione della spline?


Hai a che fare con x mancanti o y mancanti o entrambi?
Glen_b -Restate Monica

2
+1 (!) Sono davvero felice di vedere qualcun altro porre una domanda simile. Recentemente ho pubblicato questa domanda: stats.stackexchange.com/questions/295977/… su come usare spline cubiche con restrizioni nei topi di R. Opterei specificamente per le spline in quanto non richiedono di specificare un polinomio frazionario mentre le spline sono abbastanza flessibili per molte forme funzionali. Non so se questo risponda alla tua domanda (da qui questo commento).
IWS,

2
Questa è una domanda interessante, aprendo (come una dimensione di una possibile risposta) la possibilità di effettuare una critica a queste diverse tecniche di lisciatura / interpolazione contrastando la loro capacità di accogliere i dati mancanti. (In una certa misura, la fragilità per la mancanza è un "imbarazzo" per un metodo moderno.) Noto solo nel passare l'ovvio punto che un'implementazione bayesiana ti farebbe imputare "gratis".
David C. Norris,

2
@ DavidC.Norris Il tuo commento mi ha intuito! Potresti approfondire in che modo i metodi bayesiani si adattano alla mancanza "gratuitamente" (che presumo tu intenda sia gestita dai metodi di analisi in modo appropriato, "automaticamente" e come impostazione predefinita)? (O indicami un riferimento)
IWS,

2
La parte senza "pranzo libero" di "libero" qui è che devi scrivere un modello bayesiano, il che implica pensare esplicitamente al processo di generazione dei dati ( DGP ). Una volta fatto, trattate i valori mancanti come parametri [fastidiosi]. (In bayesiano, "tutto è un parametro". Vedi anche variabile latente .) Il tuo MCMC sfrutta quindi essenzialmente il DGP che hai specificato per "imputare" i valori mancanti "gratuitamente" mentre si trascina.
David C. Norris,

Risposte:


1

f(x)f(x)=x+x.5fm()M1MmMfm(x)

Supponendo che il software per il quale si sta utilizzando sia in grado di fornire una stima degli errori standard per ogni valore univoco di x, è possibile utilizzare la formula di Rubin (imputazione multipla per non risposta nei sondaggi; 1987) per calcolare gli errori standard. Esistono formule di campionamento piccole e grandi per i gradi di libertà con imputazione multipla. La formula di esempio di grandi dimensioni (anche in Rubin) accetta gli stessi input dell'errore standard, quindi può essere utilizzata anche. Il piccolo case campione prende come input i gradi di libertà del modello; non è ovvio per me se questa formula può essere applicata qui.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.