Tecnica di bootstrap corretta per i dati in cluster?


16

Ho una domanda relativa alla corretta tecnica di bootstrap da utilizzare con i dati in cui è presente un clustering forte.

Mi è stato assegnato il compito di valutare un modello predittivo di effetti misti multivariati sui dati dei sinistri assicurativi assegnando un punteggio all'attuale modello di base sui dati sui sinistri più recenti, al fine di determinare in che misura il modello prevede quali episodi di cura contengano la più alta frequenza di sedute (in alto 95 ° percentile). Sensibilità, specificità e valore predittivo positivo (PPV) verranno utilizzati per valutare l'efficacia del modello.

Il bootstrap sembra il modo giusto per costruire intervalli di confidenza per la sensibilità, la specificità e le percentuali di PPV. Sfortunatamente, un bootstrap ingenuo non è appropriato dato che i dati sui reclami sono 1) correlati dal fornitore di assistenza, 2) raggruppati in episodi di cura con visite più frequenti durante mesi precedenti nell'episodio di cura (quindi è presente un'autocorrelazione). Una variante della tecnica bootstrap dei blocchi in movimento sarebbe appropriata qui?

O forse una procedura di bootstrap in tre fasi funzionerebbe: 1) campione con sostituzione dai fornitori distinti nei dati, quindi 2) campione con sostituzione da episodi di cura distinti da fornitori selezionati, quindi 3) campione con sostituzione da rivendicazioni distinte all'interno di ciascuno episodio selezionato.

Mille grazie per eventuali suggerimenti!

Risposte:


14

Il secondo approccio suggerito sembra ragionevole, ma risulta che è meglio campionare solo con la sostituzione al livello più alto e senza la sostituzione ai restanti livelli secondari quando si avvia il bootstrap dei dati gerarchici. Ciò è dimostrato dalle simulazioni di Ren et al (2010): http://www.tandfonline.com/doi/abs/10.1080/02664760903046102

Field & Welsh (2007) ha studiato teoricamente diversi approcci per set di dati a 2 livelli e ha scoperto che il campionamento con la sostituzione a entrambi i livelli non era un'idea brillante.
http://onlinelibrary.wiley.com/doi/10.1111/j.1467-9868.2007.00593.x/full

L'autocorrelazione di cui parli è un problema serio. D'altra parte, la selezione senza sostituzione dagli episodi di cura preserverebbe la struttura di autocorrelazione, quindi forse non è un problema così grande.


Mi chiedo se la seguente soluzione sia appropriata:
Rafael,

... scusa non ho potuto finire il mio commento precedente. Eccolo: ... Creare un codice (id) che tenga conto di ogni livello di clustering (ad esempio episoid1.claim1, episoid1.claim1, ..., episoid2.claim1, episoid2.claim2, ..., episoidn.claimp) e quindi utilizzare GEE che consente di gestire l'autocorrelazione. Ho letto da qualche parte che i modelli GEE forniscono stime affidabili anche in presenza di strutture più robuste. Questa soluzione sembra ragionevole?
Rafael,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.