Sto allenando una regressione logistica per prevedere quali corridori hanno più probabilità di finire una corsa estenuante estenuante.
Pochissimi corridori completano questa gara, quindi ho un grave squilibrio di classe e un piccolo campione di successi (forse qualche decina). Sento che potrei ottenere un buon "segnale" dalle dozzine di corridori che quasi ce l'hanno fatta. (I miei dati sull'allenamento non hanno solo il completamento, ma anche fino a che punto quelli che non sono finiti lo hanno effettivamente realizzato.) Quindi mi chiedo se sia una terribile idea o non includere un "credito parziale". Ho escogitato un paio di funzioni per il credito parziale, la rampa e la curva logistica, a cui potevano essere dati vari parametri.
L'unica differenza con la regressione sarebbe che avrei usato i dati di allenamento per prevedere il modificato, continuo anziché un risultato binario. Confrontando le loro previsioni su un set di test (usando la risposta binaria) ho avuto risultati abbastanza inconcludenti - il credito parziale logistico sembrava migliorare marginalmente R-quadrato, AUC, P / R, ma questo era solo un tentativo su un caso d'uso usando un piccolo campione.
Non mi interessa che le previsioni siano uniformemente distorte verso il completamento - quello che mi interessa è classificare correttamente i concorrenti sulla loro probabilità di finire, o forse anche stimare la loro probabilità relativa di finire.
Comprendo che la regressione logistica presuppone una relazione lineare tra predittori e registro del rapporto delle probabilità, e ovviamente questo rapporto non ha una vera interpretazione se inizio a fare casini con i risultati. Sono sicuro che questo non è intelligente da un punto di vista teorico, ma potrebbe aiutare a ottenere qualche segnale aggiuntivo e prevenire un eccesso di adattamento. (Ho quasi tanti predittori quanti sono i successi, quindi può essere utile utilizzare le relazioni con completamento parziale come una verifica delle relazioni con completamento completo).
Questo approccio è mai stato utilizzato nella pratica responsabile?
Ad ogni modo, ci sono altri tipi di modelli là fuori (forse qualcosa che modella esplicitamente la percentuale di rischio, applicata sulla distanza anziché sul tempo) che potrebbero essere più adatti per questo tipo di analisi?