Come scegliere la probabilità di taglio per un evento raro Regressione logistica


11

Ho 100.000 osservazioni (9 variabili indicatrici fittizie) con 1000 positivi. La regressione logistica dovrebbe funzionare bene in questo caso, ma la probabilità di taglio mi confonde.

Nella letteratura comune, scegliamo il 50% di cutoff per prevedere 1 e 0 secondi. Non posso farlo poiché il mio modello fornisce un valore massimo di ~ 1%. Quindi una soglia può essere a 0,007 o da qualche parte intorno ad essa.

Comprendo le ROCcurve e come l'area sotto la curva può aiutarmi a scegliere tra due modelli LR per lo stesso set di dati. Tuttavia, ROC non mi aiuta a scegliere una probabilità di taglio ottimale che può essere utilizzata per testare il modello su dati fuori campione.

Dovrei semplicemente usare un valore di cutoff che minimizzi il misclassification rate? ( http://www2.sas.com/proceedings/sugi31/210-31.pdf )

Aggiunto -> Per un tasso di eventi così basso, i miei tassi di classificazione errata sono influenzati da un numero enorme di falsi positivi. Mentre il tasso appare complessivamente buono, poiché anche la dimensione totale dell'universo è grande, ma il mio modello non dovrebbe avere così tanti falsi positivi (in quanto si tratta di un modello di rendimento degli investimenti). I coeff di 5/10 sono significativi.


3
È il costo relativo dei due tipi di classificazione errata insieme alle loro probabilità che dovrebbe determinare l'interruzione. Se si desidera solo convalidare il modello di probabilità, calcolare il suo punteggio AUC o Brier quando applicato al set di test.
Scortchi - Ripristina Monica

Questa potrebbe essere una buona risposta: stats.stackexchange.com/a/25398/5597
Tae-Sung Shin

Anche le risposte pertinenti qui e qui .
Scortchi - Ripristina Monica

@ Tae-SungShin Grazie per il link. È utile Immagino che non ci sia una risposta definitiva al mio Q. Il mio modello soffre di un alto numero di falsi positivi.
Maddy,

@Scortchi Grazie. L'uso dell'AUC avrebbe potuto essere utile se stavo confrontando 2 diversi modelli di regressione logistica (con predittori extra) ma non sono sicuro di come mi possa aiutare nel mio caso. Mi dà una probabilità di successo totale del mio modello, ma non mi aiuta a scegliere una probabilità di taglio.
Maddy,

Risposte:


5

Non sono d'accordo sul fatto che un limite del 50% sia intrinsecamente valido o supportato dalla letteratura. L'unico caso in cui una tale interruzione potrebbe essere giustificata è in un disegno caso-controllo in cui la prevalenza del risultato è esattamente del 50%, ma anche in questo caso la scelta sarebbe soggetta a poche condizioni. Penso che la logica principale per la scelta del cut-off sia la caratteristica operativa desiderata del test diagnostico.

Un cut-off può essere scelto per ottenere una sensibilità o specificità desiderata. Per un esempio di ciò, consultare la letteratura sui dispositivi medici. La sensibilità è spesso impostata su un importo fisso: gli esempi includono 80%, 90%, 95%, 99%, 99,9% o 99,99%. Il compromesso di sensibilità / specificità dovrebbe essere confrontato con i danni degli errori di tipo I e di tipo II. Spesso, come nel caso dei test statistici, il danno di un errore di tipo I è maggiore e quindi controlliamo tale rischio. Tuttavia, questi danni sono raramente quantificabili. Per questo motivo, ho grandi obiezioni a tagliare i metodi di selezione che si basano su una singola misura di precisione predittiva: trasmettono, erroneamente, che i danni possono e sono stati quantificati.

Il problema con troppi falsi positivi è un esempio del contrario: l'errore di tipo II potrebbe essere più dannoso. Quindi è possibile impostare la soglia per ottenere una specificità desiderata e riportare la sensibilità raggiunta a tale soglia.

Se trovi che entrambi sono troppo bassi per essere accettabili per la pratica, il tuo modello di rischio non funziona e dovrebbe essere respinto.

La sensibilità e la specificità sono facilmente calcolabili o ricercate da una tabella su un intero intervallo di possibili valori di cut-off. Il problema con il ROC è che omette le informazioni di taglio specifiche dal grafico. Il ROC è quindi irrilevante per la scelta di un valore di soglia.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.