Perché il cutoff P> 0,5 non è "ottimale" per la regressione logistica?


13

PREFAZIONE: non mi interessa il merito di usare un taglio o no, o come si dovrebbe scegliere un taglio. La mia domanda è puramente matematica e dovuta alla curiosità.

La regressione logistica modella la probabilità condizionale posteriore della classe A rispetto alla classe B e si adatta a un iperpiano in cui le probabilità condizionali posteriori sono uguali. Quindi, in teoria, ho capito che un punto di classificazione 0,5 minimizzerà gli errori totali indipendentemente dall'equilibrio impostato, poiché modella la probabilità posteriore (supponendo che incontriate costantemente lo stesso rapporto di classe).

Nel mio esempio di vita reale, ottengo una precisione molto scarsa usando P> 0,5 come valore limite di classificazione (precisione del 51% circa). Tuttavia, quando ho esaminato l'AUC è superiore a 0,99. Quindi ho esaminato alcuni valori di cutoff diversi e ho scoperto che P> 0,6 mi ha dato una precisione del 98% (90% per la classe più piccola e 99% per la classe più grande) - solo il 2% dei casi è stato classificato erroneamente.

Le classi sono fortemente sbilanciate (1: 9) ed è un problema ad alta dimensione. Tuttavia, ho assegnato le classi equamente a ciascun set di convalida incrociata in modo che non ci fosse differenza tra il bilanciamento delle classi tra adattamento del modello e previsione. Ho anche provato a utilizzare gli stessi dati dall'adattamento del modello e nelle previsioni e si è verificato lo stesso problema.

Sono interessato al motivo per cui 0,5 non minimizzerebbe gli errori, pensavo che ciò sarebbe dovuto alla progettazione se il modello fosse idoneo minimizzando la perdita di entropia.

Qualcuno ha qualche feedback sul perché questo accada? È dovuto all'aggiunta di penalità, qualcuno può spiegare cosa sta succedendo in tal caso?



Scortchi, potresti forse essere un po 'più specifico su quale domanda ritieni sia rilevante? Non ho visto la domanda o la risposta pertinente prima di pubblicare, né ora.
Felix000,

Spiacenti, non intendevo dire che tutti rispondevano alla tua domanda, ma ho pensato che fossero tutti rilevanti nel suggerire di non usare l'accuratezza di un cut-off come metrica delle prestazioni, o almeno non un cut-off arbitrario non calcolato da un'utilità funzione.
Scortchi - Ripristina Monica

Risposte:


16

Non è necessario ottenere categorie previste da un modello di regressione logistica. Può stare bene con le probabilità previste. Se si vuole ricevere categorie previste, è necessario non utilizzare queste informazioni per fare altro che dire 'questa osservazione è meglio classificato in questa categoria'. Ad esempio, non è necessario utilizzare 'accuratezza' / percentuale corretta per selezionare un modello.

Detto questo, raramente lo sarà il limite ottimale per classificare le osservazioni. Per avere un'idea intuitiva di come ciò possa accadere, immagina di avere con osservazioni nella categoria positiva. Un modello semplice, solo per intercettazione, potrebbe facilmente avere falsi negativi quando si utilizza come valore soglia. D'altra parte, se avessi chiamato tutto positivo, avresti falso positivo, ma corretto al . .50N=1009949.50199%

Più in generale, la regressione logistica sta cercando di adattare la vera probabilità positiva alle osservazioni in funzione delle variabili esplicative. Non sta cercando di massimizzare l'accuratezza concentrando le probabilità previste intorno al valore . Se il tuo campione non è positivo al , non c'è motivo per cui massimizzerebbe la percentuale corretta..5050%.50


Ciao, grazie per la tua spiegazione, tuttavia non ottengo l'esempio con il modello solo intercetta. Con il modello di sola intercettazione avrai 0,99 per qualsiasi esempio e quindi avrai la precisione del 99% prendendo qualsiasi valore di soglia.
abcdaire,

0

Penso che potrebbe essere a causa di molteplici motivi:

  1. Potrebbe esserci una non linearità nei dati, quindi l'aggiunta lineare dei pesi, potrebbe non sempre comportare probabilità corrette
  2. Le variabili sono un mix di buoni predittori e deboli predittori, quindi la popolazione con punteggio che si aggira intorno allo 0,5 è a causa di predittori deboli o meno effetto di predittori forti. Andando sopra, ottieni persone, per le quali l'effetto dei predittori è forte

Pertanto, a volte potresti dover giocare con un valore di cut-off, per massimizzare il risultato desiderato come precisione, accuratezza ecc. Perché la maggior parte delle volte le popolazioni non sono molto omogenee.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.