Domanda : ho inserito un modello probabilistico (rete bayesiana) per modellare una variabile di risultato binaria. Vorrei creare un grafico di calibrazione ad alta risoluzione (ad es. Spline) corretto per adattamento eccessivo con bootstrap. Esiste una procedura standard per il calcolo di tale curva?
Considerazioni : potrei farlo facilmente con la suddivisione treno / test, ma preferirei non gettare alcun dato poiché ho meno di 20.000 campioni. Quindi ho naturalmente pensato al bootstrap. So che una di queste funzioni (calibrare) è implementata nel pacchetto rms di Frank Harrell, ma sfortunatamente il modello che utilizzo non è supportato dal pacchetto.
Domanda bonus : è possibile ricalibrare un modello non calibrato con il bootstrap? Il motivo per cui lo chiedo è che ho provato a ricalibrare un modello di
- dividere i dati in treno / prova
- modello adatto al set da allenamento
- ricalibrare il modello per addestrare il set (con una spline cubica)
- valutare la calibrazione sul set di test
I modelli ricalibrati nel modo sopra erano perfettamente calibrati sul set del treno, ma non tanto sul set di test, il che probabilmente indica un lieve eccesso di adattamento. Ho anche provato a dividere ulteriormente il set di test, calibrando su una divisione e valutando la calibrazione sulla seconda divisione. Ho ottenuto risultati migliori (comunque non ancora perfettamente calibrato), ma i set sono diventati piuttosto piccoli (~ 1000 campioni) e quindi la calibrazione inaffidabile
reticulate
. Potrei implementare la procedura da solo se lo sapessi, ma non l'ho trovata da nessuna parte. Immagino che spero solo che il prof Harrell vedrà questa domanda: D