È mai una buona idea dare un "credito parziale" (esito continuo) nella formazione di una regressione logistica?

Sto allenando una regressione logistica per prevedere quali corridori hanno più probabilità di finire una corsa estenuante estenuante.

Pochissimi corridori completano questa gara, quindi ho un grave squilibrio di classe e un piccolo campione di successi (forse qualche decina). Sento che potrei ottenere un buon "segnale" dalle dozzine di corridori che quasi ce l'hanno fatta. (I miei dati sull'allenamento non hanno solo il completamento, ma anche fino a che punto quelli che non sono finiti lo hanno effettivamente realizzato.) Quindi mi chiedo se sia una terribile idea o non includere un "credito parziale". Ho escogitato un paio di funzioni per il credito parziale, la rampa e la curva logistica, a cui potevano essere dati vari parametri.

L'unica differenza con la regressione sarebbe che avrei usato i dati di allenamento per prevedere il modificato, continuo anziché un risultato binario. Confrontando le loro previsioni su un set di test (usando la risposta binaria) ho avuto risultati abbastanza inconcludenti - il credito parziale logistico sembrava migliorare marginalmente R-quadrato, AUC, P / R, ma questo era solo un tentativo su un caso d'uso usando un piccolo campione.

Non mi interessa che le previsioni siano uniformemente distorte verso il completamento - quello che mi interessa è classificare correttamente i concorrenti sulla loro probabilità di finire, o forse anche stimare la loro probabilità relativa di finire.

Comprendo che la regressione logistica presuppone una relazione lineare tra predittori e registro del rapporto delle probabilità, e ovviamente questo rapporto non ha una vera interpretazione se inizio a fare casini con i risultati. Sono sicuro che questo non è intelligente da un punto di vista teorico, ma potrebbe aiutare a ottenere qualche segnale aggiuntivo e prevenire un eccesso di adattamento. (Ho quasi tanti predittori quanti sono i successi, quindi può essere utile utilizzare le relazioni con completamento parziale come una verifica delle relazioni con completamento completo).

Questo approccio è mai stato utilizzato nella pratica responsabile?

Ad ogni modo, ci sono altri tipi di modelli là fuori (forse qualcosa che modella esplicitamente la percentuale di rischio, applicata sulla distanza anziché sul tempo) che potrebbero essere più adatti per questo tipo di analisi?

logistic binary-data continuous-data

— C8H10N4O2
fonte

Questo sembra un lavoro per l'analisi della sopravvivenza, come l'analisi dei rischi proporzionali di Cox o forse un modello di sopravvivenza parametrico.

Pensa a questo problema al contrario del modo in cui lo stai spiegando: quali sono le variabili predittive associate alle precedenti distanze da smettere ?

Smettere è l'evento. La distanza percorsa potrebbe essere considerata equivalente al time-to-event nell'analisi standard di sopravvivenza. Quindi hai un numero di eventi pari al numero di individui che hanno lasciato, quindi il tuo problema con un numero limitato di predittori diminuirà. Tutti coloro che smettono di fornire informazioni.

Un modello Cox, se funziona sui tuoi dati, fornirà un predittore lineare basato su tutti i valori delle variabili predittive, classificando i concorrenti in ordine di distanza prevista per uscire.

— EdM
fonte

Grazie per questo. Sembra che tu stia dicendo che usando il modello Cox, i corridori con la distanza più lunga prevista per smettere sono anche i meno propensi a smettere prima della distanza di arrivo, a causa della costruzione dei rischi proporzionale. È preciso? Inoltre, poiché lo stai raccomandando, indovinare l'idea di credito parziale non ti ha colpito come fondato?

— C8H10N4O2,

È sostanzialmente corretto. Vedo l'incorporazione della distanza da abbandonare in un modello di sopravvivenza come un modo per dare "credito parziale" in un modo che abbia una giustificazione teorica e pratica ben consolidata. Non ho elaborato i dettagli, ma sospetto che ciò realizzi esattamente ciò che intendevi, come espresso nel tuo grafico.

— EdM,