Questa domanda è un po 'generica e prolissa, ma per favore abbi pazienza.
Nella mia applicazione, ho molti set di dati, ciascuno composto da ~ 20.000 punti dati con ~ 50 funzionalità e una singola variabile binaria dipendente. Sto tentando di modellare i set di dati utilizzando la regressione logistica regolarizzata (pacchetto R glmnet )
Come parte della mia analisi, ho creato grafici residui come segue. Per ogni funzione, ordino i punti dati in base al valore di quella funzione, divido i punti dati in 100 bucket, quindi calcolo il valore di output medio e il valore di previsione medio all'interno di ciascun bucket. Tracciamo queste differenze.
Ecco un esempio di trama residua:
Nel grafico sopra, la funzione ha un intervallo di [0,1] (con una forte concentrazione a 1). Come puoi vedere, quando il valore della funzione è basso, il modello sembra distorto verso la sovrastima della probabilità di un output 1. Ad esempio, nel bucket più a sinistra, il modello sopravvaluta la probabilità di circa il 9%.
Grazie a queste informazioni, vorrei modificare la definizione della funzione in modo semplice per correggere approssimativamente questo pregiudizio. Alterazioni come la sostituzione
o
Come posso fare questo? Sto cercando una metodologia generale in modo che un essere umano possa scorrere rapidamente tutti i ~ 50 grafici e apportare modifiche, e farlo per tutti i set di dati e ripetere spesso per mantenere aggiornati i modelli man mano che i dati si evolvono nel tempo.
Come domanda generale, è forse questo l'approccio giusto? Le ricerche di Google per "analisi residua della regressione logistica" non danno molti risultati con buoni consigli pratici. Sembrano essere fissati nel rispondere alla domanda "Questo modello è adatto?" e offrire vari test come Hosmer-Lemeshow per rispondere. Ma non mi importa se il mio modello è buono, voglio sapere come migliorarlo!