Ho una domanda relativa alla corretta tecnica di bootstrap da utilizzare con i dati in cui è presente un clustering forte.
Mi è stato assegnato il compito di valutare un modello predittivo di effetti misti multivariati sui dati dei sinistri assicurativi assegnando un punteggio all'attuale modello di base sui dati sui sinistri più recenti, al fine di determinare in che misura il modello prevede quali episodi di cura contengano la più alta frequenza di sedute (in alto 95 ° percentile). Sensibilità, specificità e valore predittivo positivo (PPV) verranno utilizzati per valutare l'efficacia del modello.
Il bootstrap sembra il modo giusto per costruire intervalli di confidenza per la sensibilità, la specificità e le percentuali di PPV. Sfortunatamente, un bootstrap ingenuo non è appropriato dato che i dati sui reclami sono 1) correlati dal fornitore di assistenza, 2) raggruppati in episodi di cura con visite più frequenti durante mesi precedenti nell'episodio di cura (quindi è presente un'autocorrelazione). Una variante della tecnica bootstrap dei blocchi in movimento sarebbe appropriata qui?
O forse una procedura di bootstrap in tre fasi funzionerebbe: 1) campione con sostituzione dai fornitori distinti nei dati, quindi 2) campione con sostituzione da episodi di cura distinti da fornitori selezionati, quindi 3) campione con sostituzione da rivendicazioni distinte all'interno di ciascuno episodio selezionato.
Mille grazie per eventuali suggerimenti!