Ho 100.000 osservazioni (9 variabili indicatrici fittizie) con 1000 positivi. La regressione logistica dovrebbe funzionare bene in questo caso, ma la probabilità di taglio mi confonde.
Nella letteratura comune, scegliamo il 50% di cutoff per prevedere 1 e 0 secondi. Non posso farlo poiché il mio modello fornisce un valore massimo di ~ 1%. Quindi una soglia può essere a 0,007 o da qualche parte intorno ad essa.
Comprendo le ROC
curve e come l'area sotto la curva può aiutarmi a scegliere tra due modelli LR per lo stesso set di dati. Tuttavia, ROC non mi aiuta a scegliere una probabilità di taglio ottimale che può essere utilizzata per testare il modello su dati fuori campione.
Dovrei semplicemente usare un valore di cutoff che minimizzi il misclassification rate
? ( http://www2.sas.com/proceedings/sugi31/210-31.pdf )
Aggiunto -> Per un tasso di eventi così basso, i miei tassi di classificazione errata sono influenzati da un numero enorme di falsi positivi. Mentre il tasso appare complessivamente buono, poiché anche la dimensione totale dell'universo è grande, ma il mio modello non dovrebbe avere così tanti falsi positivi (in quanto si tratta di un modello di rendimento degli investimenti). I coeff di 5/10 sono significativi.