PREFAZIONE: non mi interessa il merito di usare un taglio o no, o come si dovrebbe scegliere un taglio. La mia domanda è puramente matematica e dovuta alla curiosità.
La regressione logistica modella la probabilità condizionale posteriore della classe A rispetto alla classe B e si adatta a un iperpiano in cui le probabilità condizionali posteriori sono uguali. Quindi, in teoria, ho capito che un punto di classificazione 0,5 minimizzerà gli errori totali indipendentemente dall'equilibrio impostato, poiché modella la probabilità posteriore (supponendo che incontriate costantemente lo stesso rapporto di classe).
Nel mio esempio di vita reale, ottengo una precisione molto scarsa usando P> 0,5 come valore limite di classificazione (precisione del 51% circa). Tuttavia, quando ho esaminato l'AUC è superiore a 0,99. Quindi ho esaminato alcuni valori di cutoff diversi e ho scoperto che P> 0,6 mi ha dato una precisione del 98% (90% per la classe più piccola e 99% per la classe più grande) - solo il 2% dei casi è stato classificato erroneamente.
Le classi sono fortemente sbilanciate (1: 9) ed è un problema ad alta dimensione. Tuttavia, ho assegnato le classi equamente a ciascun set di convalida incrociata in modo che non ci fosse differenza tra il bilanciamento delle classi tra adattamento del modello e previsione. Ho anche provato a utilizzare gli stessi dati dall'adattamento del modello e nelle previsioni e si è verificato lo stesso problema.
Sono interessato al motivo per cui 0,5 non minimizzerebbe gli errori, pensavo che ciò sarebbe dovuto alla progettazione se il modello fosse idoneo minimizzando la perdita di entropia.
Qualcuno ha qualche feedback sul perché questo accada? È dovuto all'aggiunta di penalità, qualcuno può spiegare cosa sta succedendo in tal caso?