Qual è la differenza tra regressione lineare e regressione logistica?


122

Qual è la differenza tra regressione lineare e regressione logistica?

Quando useresti ciascuno?


28
Nel modello di regressione lineare la variabile dipendente è considerata continua, mentre nella regressione logistica è categorica, cioè discreta. Nell'applicazione, il primo viene utilizzato nelle impostazioni di regressione mentre il secondo viene utilizzato per la classificazione binaria o la classificazione multi-classe (dove viene chiamata regressione logistica multinomiale). y
Pardis,

Sebbene scritto in un contesto diverso, può aiutarti a leggere la mia risposta qui: Differenza tra i modelli logit e probit , che contiene molte informazioni su ciò che sta accadendo nella regressione logistica che possono aiutarti a capirli meglio.
gung

2
Tutte le risposte precedenti sono giuste, ma ci sono ragioni per cui potresti favorire un modello di regressione lineare anche quando il tuo esito è una dicotomia. Ho scritto su questi motivi qui: statisticshorizons.com/linear-vs-logistic
Paul von Hippel

Risposte:


111

La regressione lineare utilizza l'equazione lineare generale dove è una variabile dipendente continua e le variabili indipendenti sono generalmente continue (ma possono anche essere binarie, ad esempio quando il modello lineare viene utilizzato in un t- test) o altri domini discreti. è un termine per la varianza che non è spiegato dal modello e di solito viene chiamato semplicemente "errore". I singoli valori dipendenti indicati da possono essere risolti modificando leggermente l'equazione:Y X i ϵ Y jY=b0+(biXi)+ϵYXiϵYjYj=b0+(biXij)+ϵj

La regressione logistica è un'altra procedura del modello lineare generalizzato (GLM) che utilizza la stessa formula di base, ma invece della continua , sta regredendo per la probabilità di un risultato categorico. Nella forma più semplice, questo significa che stiamo prendendo in considerazione solo una variabile di risultato e due stati di quella variabile - 0 o 1.Y

L'equazione per la probabilità di è simile alla seguente: P ( Y = 1 ) = 1Y=1

P(Y=1)=11+e(b0+(biXi))

Le variabili indipendenti possono essere continue o binarie. I coefficienti di regressione possono essere esponenziati per darti la variazione delle probabilità di per variazione in , ovvero e . è chiamato odds ratio, . In inglese, puoi dire che le probabilità di aumentano di un fattore di per cambio di unità in .XibiYXiOdds=P(Y=1)P(Y=0)=P(Y=1)1P(Y=1)ΔOdds=ebiΔOdds Y=1ebiXiOdds(Xi+1)Odds(Xi)Y=1ebiXi

Esempio: se volessi vedere come l'indice di massa corporea preveda il colesterolo nel sangue (una misura continua), useresti la regressione lineare come descritto all'inizio della mia risposta. Se volessi vedere come l'IMC preveda le probabilità di essere un diabetico (una diagnosi binaria), useresti la regressione logistica.


1
Sembra una buona risposta, ma potresti spiegare che cosa significa e - in particolare - perché includerli tra le somme? (Che cosa viene riassunto, comunque?)ϵi
whuber

Bill mi sembra che intendesse scrivere cioè (abbreviazione latina per questo) piuttosto che ei
Michael Chernick,

1
Ma la εi nella somma dell'esponente non dovrebbe essere lì. Sembra che il termine del rumore nel modello sia stato portato accidentalmente lì. L'unica somma dovrebbe essere sopra i bis che rappresentano i coefficienti p per le covariate.
Michael Chernick,

9
C'è un errore nell'espressione per . Dovresti avere non La casualità in un modello di regressione logistica deriva dal fatto che si tratta di prove a bernoulli, non da lì vi sono errori nelle probabilità di successo (che è come lo hai scritto). P(Y=1)
P(Y=1)=11+exp{Xβ},
P(Y=1)=11+exp{(Xβ+ε)}
Macro,

3
La regressione logistica di @samthebrand non è di per sé binaria. Può essere usato per modellare i dati con una risposta binaria tramite probabilità che vanno da 0 a 1. Andando a spudoratamente collegare il mio post sul blog su questo che dovrebbe cancellare la tua confusione.
Ben

34

La regressione lineare viene utilizzata per stabilire una relazione tra variabili dipendenti e indipendenti, utile per stimare la variabile dipendente risultante in caso di variazione variabile indipendente. Per esempio:

Utilizzando una regressione lineare, la relazione tra Rain (R) e Umbrella Sales (U) risulta essere - U = 2R + 5000

Questa equazione dice che per ogni 1mm di pioggia c'è una richiesta di 5002 ombrelli. Quindi, usando la regressione semplice, puoi stimare il valore della tua variabile.

La regressione logistica viene invece utilizzata per accertare la probabilità di un evento. E questo evento viene acquisito in formato binario, ovvero 0 o 1.

Esempio: voglio accertare se un cliente acquisterà il mio prodotto o meno. Per questo, vorrei eseguire una regressione logistica sui dati (rilevanti) e la mia variabile dipendente sarebbe una variabile binaria (1 = Sì; 0 = No).

In termini di rappresentazione grafica, la regressione lineare fornisce una linea lineare come output, una volta che i valori sono tracciati sul grafico. Considerando che, la regressione logistica dà una linea a forma di S.

Riferimento da Mohit Khurana.


8
Ri: "La regressione lineare è usata per stabilire una relazione tra variabili dipendenti e indipendenti" - questo vale anche per la regressione logistica - è solo che la variabile dipendente è binaria.
Macro,

3
La regressione logistica non è solo per la previsione di un evento binario ( classi). Può essere generalizzato in classi (regressione logistica multinomiale)2k
tgy

27

Le differenze sono state risolte da DocBuckets e Pardis, ma voglio aggiungere un modo per confrontare le loro prestazioni non menzionate.

La regressione lineare viene generalmente risolta riducendo al minimo l'errore dei minimi quadrati del modello, pertanto gli errori di grandi dimensioni vengono penalizzati in modo quadratico. La regressione logistica è esattamente l'opposto. L'uso della funzione di perdita logistica comporta la penalizzazione di errori di grandi dimensioni a una costante asintoticamente.

Considera la regressione lineare sui risultati categorici di {0,1} per capire perché questo è un problema. Se il tuo modello prevede che il risultato è 38 quando la verità è 1, non hai perso nulla. La regressione lineare proverebbe a ridurre quella 38, la logistica no (altrettanto).


Allora, le situazioni / i casi che sono penalizzati in una logistica, cioè in quali casi avremmo problemi?
MSIS,

1
Al contrario: ogni volta che deviazioni maggiori dall'adattamento in realtà comportano risultati peggiori. Ad esempio, la regressione logistica ti aiuta a colpire un bersaglio per le freccette, ma non può far sembrare bello un occhio di bue. O, allo stesso modo, pensa che un quasi fallimento del tabellone sia lo stesso di attaccare il tuo vicino.
J. Abrahamson,

Bella risposta. Sono state condotte ricerche su quanto influisce sulle prestazioni della modella? Voglio dire se è stata utilizzata una regressione lineare per prevedere la risposta = {0,1} invece di una regressione logistica.
Tagar,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.