Quando è adatta la regressione logistica?


12

Attualmente sto insegnando a me stesso come fare la classificazione, e in particolare sto esaminando tre metodi: supportare macchine vettoriali, reti neurali e regressione logistica. Quello che sto cercando di capire è il motivo per cui la regressione logistica avrebbe mai funzionato meglio degli altri due.

Dalla mia comprensione della regressione logistica, l'idea è di adattare una funzione logistica a tutti i dati. Quindi, se i miei dati sono binari, tutti i miei dati con etichetta 0 dovrebbero essere mappati sul valore 0 (o vicino ad esso) e tutti i miei dati con valore 1 dovrebbero essere mappati sul valore 1 (o vicino ad esso). Ora, poiché la funzione logistica è continua e fluida, eseguire questa regressione richiede che tutti i miei dati si adattino alla curva; non viene applicata maggiore importanza ai punti dati vicini al limite decisionale e tutti i punti dati contribuiscono alla perdita di importi diversi.

Tuttavia, con macchine vettoriali di supporto e reti neurali, sono importanti solo quei punti dati vicini al limite decisionale; fintanto che un punto dati rimane dallo stesso lato del limite decisionale, contribuirà alla stessa perdita.

Pertanto, perché la regressione logistica supererebbe mai le macchine vettoriali o le reti neurali di supporto, dato che "spreca risorse" nel tentativo di adattare una curva a molti dati non importanti (facilmente classificabili), piuttosto che concentrarsi solo sui dati difficili intorno alla decisione confine?


5
LR ti darà stime di probabilità mentre SVM fornisce stime binarie. Ciò rende utile LR anche quando non esiste un iperpiano di separazione tra le classi. Inoltre, devi prendere in considerazione la complessità degli algoritmi e altre caratteristiche come il numero di parametri e la sensibilità.
Bar

Risposte:


28

Le risorse che consideri "sprecate" sono, in effetti, guadagni di informazioni forniti dalla regressione logistica. Hai iniziato con la premessa sbagliata. La regressione logistica non è un classificatore. È uno stimatore di probabilità / rischio. A differenza di SVM, consente e prevede "chiamate chiuse". Porterà a un processo decisionale ottimale perché non tenta di ingannare il segnale predittivo nell'incorporare una funzione di utilità che è implicita ogni volta che classifichi le osservazioni. L'obiettivo della regressione logistica utilizzando la stima della massima verosimiglianza è fornire stime ottimali di Prob . Il risultato viene utilizzato in molti modi, ad es. Curve di rialzo, valutazione del rischio di credito, ecc. Vedere il libro Signal and the Noise di Nate Silver(Y=1|X) per argomenti convincenti a favore del ragionamento probabilistico.

Si noti che la variabile dipendente nella regressione logistica può essere codificata come desiderato: 0/1, A / B, sì / no, ecc.Y

Il presupposto principale della regressione logistica è che è veramente binario, ad esempio non è stato inventato da una variabile di risposta ordinale o continua sottostante. Come i metodi di classificazione, è per fenomeni veramente tutto o niente.Y

Alcuni analisti ritengono che la regressione logistica presupponga la linearità degli effetti predittori sulla scala delle probabilità del log. Ciò era vero solo quando DR Cox inventò il modello logistico nel 1958 in un momento in cui il calcolo non era disponibile per estendere il modello usando strumenti come le spline di regressione. L'unica vera debolezza nella regressione logistica è che è necessario specificare quali interazioni si desidera consentire nel modello. Per la maggior parte dei set di dati questo si trasforma in un punto di forza perché gli effetti principali additivi sono generalmente predittori molto più forti delle interazioni e i metodi di apprendimento automatico che danno uguale priorità alle interazioni possono essere instabili, difficili da interpretare e richiedono dimensioni del campione maggiori rispetto alla regressione logistica per prevedere bene.


6
+1. Ad essere sincero, non ho mai trovato utili gli SVM. Sono sexy ma sono lenti ad allenarsi e segnare - secondo la mia esperienza - e hanno molte scelte che devi armeggiare (incluso il kernel). Reti neurali che ho trovato utili, ma anche molte opzioni e regolazioni. La regressione logistica è semplice e fornisce risultati ragionevolmente ben calibrati. La calibrazione è importante per l'uso nel mondo reale. Naturalmente, il rovescio della medaglia è che è lineare, quindi non può adattarsi a dati aggregati, complessi, così come altri metodi come Random Forest.
Wayne,

1
Bella risposta. A proposito, potresti essere interessato a sapere che recentemente gli apprendenti automatici sono venuti in giro per adattare i loro metodi fantasiosi in quadri tradizionali come la massima probabilità penalizzata - e si scopre che i metodi fantasiosi funzionano meglio quando lo fanno. Considera XGBoost, probabilmente l'algoritmo di potenziamento dell'insieme di alberi più efficace esistente. La matematica è qui: xgboost.readthedocs.io/en/latest/model.html . Dovrebbe apparire abbastanza familiare a uno statistico tradizionale e puoi adattare i modelli per molti scopi statistici comuni con le solite funzioni di perdita.
Paul,

5

Hai ragione, spesso la regressione logistica fa male come classificatore (specialmente se confrontato con altri algoritmi). Tuttavia, ciò non significa che la regressione logistica debba essere dimenticata e mai studiata in quanto presenta due grandi vantaggi:

  1. Risultati probabilistici. Frank Harrell (+1) lo ha spiegato molto bene nella sua risposta.

  2. Y=1X1=12X2,...Xp


5
E l'apparente scarsa prestazione come classificatore è il risultato dell'utilizzo di un punteggio di precisione improprio, non un problema inerente alla regressione logistica.
Frank Harrell,

@FrankHarrell: ultimamente ho fatto alcuni esperimenti e direi che la regressione logistica si adatta ai dati con molta meno libertà rispetto ad altri metodi. Devi aggiungere interazioni e fare più ingegneria delle caratteristiche per abbinare, per esempio, la flessibilità di una foresta casuale o GAM. (Naturalmente la flessibilità è la corda tesa che attraversa l'abisso del sovradimensionamento.)
Wayne,

3
@wayne Questa meno libertà, come dici tu, è molto utile in molti casi, perché fornisce stabilità
rapaio

3
Non solo assumere che i termini di interazione siano meno importanti dei termini additivi aggiunge flessibilità, ma è possibile rilassare i presupposti in molti modi. Sto aggiungendo altro su questo nella mia risposta originale.
Frank Harrell,

2
@rapaio: Sì, la flessibilità è pericolosa, sia in termini di overfitting, ma anche in altri modi. È un problema di dominio / uso: i tuoi dati sono rumorosi o sono davvero "scomodi / cluster" se posso usare quel termine?
Wayne,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.