Perché la regressione logistica non si chiama classificazione logistica?


75

Poiché la regressione logistica è un modello di classificazione statistica che si occupa di variabili categoriche dipendenti, perché non si chiama classificazione logistica ? Il nome "Regressione" non dovrebbe essere riservato ai modelli che si occupano di variabili dipendenti continue?


5
La regressione logistica appartiene alla famiglia di modelli GLM.
Stéphane Laurent,

10
Puoi usarlo per regredire le probabilità.
Emre,

25
Mentre la regressione logistica può certamente essere utilizzata per la classificazione introducendo una soglia sulle probabilità che restituisce, questo è a malapena il suo solo uso - o anche il suo uso primario. È stato sviluppato per - e continua ad essere utilizzato per - scopi di regressione che non hanno nulla a che fare con la classificazione. Direi che questo è ancora facilmente quello per cui è principalmente usato, ma suppongo che dipenda da ciò che guardi.
Glen_b,

6
Potresti trovare interessante questo documento sullo sviluppo della regressione logistica, in particolare dal momento che dà un senso dei tipi di problemi per i quali è usato come tecnica di regressione.
Glen_b,

Risposte:


102

La regressione logistica non è assolutamente un algoritmo di classificazione da solo. È solo un algoritmo di classificazione in combinazione con una regola di decisione che rende dicotomiche le probabilità previste del risultato. La regressione logistica è un modello di regressione perché stima la probabilità di appartenenza alla classe come una (trasformazione di una) funzione multilineare delle caratteristiche.

Frank Harrell ha pubblicato una serie di risposte su questo sito Web elencando le insidie ​​riguardanti la regressione logistica come algoritmo di classificazione. Tra loro:

Se ricordo bene, una volta mi ha indicato il suo libro sulle strategie di regressione per ulteriori elaborazioni su questi (e più!) Punti, ma non riesco a trovare quel particolare post.


1
In tal caso, tutti (o la maggior parte) dei classificatori prevedono che le probabilità appartengano prima a una classe (per quanto ne so) e quindi trasformano questa prob in classi.
Outlier

9
@Outlier Counterexample: SVM non calcola affatto le probabilità della classe, misura solo la distanza tra un'osservazione e un iperpiano.
Ripristina Monica il

@ In precedenza in ML questi sono chiamati classificatori probabilistici; alberi e foreste casuali non lo sono, xgboost è - almeno con logloss)
seanv507

12

In astratto, la regressione è il problema del calcolo di un'aspettativa condizionale . Il modulo assunto da questa aspettativa è diverso a seconda delle ipotesi su come sono stati generati i dati:E[Y|X=x]

  • Supponendo (Y | X = x) di essere distribuiti normalmente rendimenti con regressione lineare classica.
  • Supponendo una distribuzione di Poisson si ottiene la regressione di Poisson.
  • Supponendo che una distribuzione di Bernoulli produca una regressione logistica.

Anche il termine "regressione" è stato usato più in generale di questo, compresi approcci come la regressione quantile, che stima un dato quantile di .(Y|X=x)


-3

Oltre alle risposte già fornite, un'altra opinione è che la regressione logistica prevede le probabilità (che è un valore continuo ) che hanno un intervallo compreso tra 0 e 1.

inserisci qui la descrizione dell'immagine

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.