Qual è la differenza tra regressione lineare e regressione logistica?


Risposte:


270
  • Uscita di regressione lineare come probabilità

    È allettante utilizzare l'output di regressione lineare come probabilità, ma è un errore perché l'output può essere negativo e maggiore di 1, mentre la probabilità no. Poiché la regressione potrebbe effettivamente produrre probabilità che potrebbero essere inferiori a 0 o addirittura superiori a 1, è stata introdotta la regressione logistica.

    Fonte: http://gerardnico.com/wiki/data_mining/simple_logistic_regression

    inserisci qui la descrizione dell'immagine

  • Risultato

    Nella regressione lineare, il risultato (variabile dipendente) è continuo. Può avere uno qualsiasi di un numero infinito di possibili valori.

    Nella regressione logistica, il risultato (variabile dipendente) ha solo un numero limitato di possibili valori.

  • La variabile dipendente

    La regressione logistica viene utilizzata quando la variabile di risposta è di natura categorica. Ad esempio, sì / no, vero / falso, rosso / verde / blu, 1 ° / 2 ° / 3 ° / 4 °, ecc.

    La regressione lineare viene utilizzata quando la variabile di risposta è continua. Ad esempio, peso, altezza, numero di ore, ecc.

  • Equazione

    La regressione lineare fornisce un'equazione che è della forma Y = mX + C, significa equazione con grado 1.

    Tuttavia, la regressione logistica fornisce un'equazione che è della forma Y = e X + e -X

  • Interpretazione coerente

    Nella regressione lineare, l'interpretazione dei coefficienti di variabili indipendenti è piuttosto semplice (cioè mantenendo costanti tutte le altre variabili, con un aumento unitario di questa variabile, la variabile dipendente dovrebbe aumentare / diminuire di xxx).

    Tuttavia, nella regressione logistica, dipende dalla famiglia (binomiale, Poisson, ecc.) E dal collegamento (log, logit, log inverso, ecc.) Utilizzati, l'interpretazione è diversa.

  • Tecnica di minimizzazione degli errori

    La regressione lineare utilizza il metodo dei minimi quadrati ordinari per ridurre al minimo gli errori e arrivare al miglior adattamento possibile, mentre la regressione logistica utilizza il metodo della massima probabilità per arrivare alla soluzione.

    La regressione lineare viene generalmente risolta riducendo al minimo l'errore dei minimi quadrati del modello, pertanto gli errori di grandi dimensioni vengono penalizzati in modo quadratico.

    La regressione logistica è esattamente l'opposto. L'uso della funzione di perdita logistica comporta la penalizzazione di errori di grandi dimensioni a una costante asintoticamente.

    Considera la regressione lineare sui risultati categorici {0, 1} per capire perché questo è un problema. Se il tuo modello prevede che il risultato è 38, quando la verità è 1, non hai perso nulla. La regressione lineare proverebbe a ridurre quella 38, la logistica non (altrettanto) 2 .


C'è una differenza tra Y = e ^ X / 1 + e ^ -X e Y = e ^ X + e ^ -X?
MMS

3
e ^ X / 1? qualsiasi cosa divida per 1 è la stessa. quindi non c'è differenza. Sono sicuro che intendevi chiedere qualcos'altro.
spacewanderer

So che questo è un vecchio thread, ma data la tua affermazione "La regressione logistica viene utilizzata quando la variabile di risposta è di natura categorica. Ad esempio, sì / no, vero / falso, rosso / verde / blu, 1 ° / 2 ° / 3 ° / 4 °, eccetera. "; qual è la differenza tra questa e la classificazione allora?
Julian

@kingJulian La regressione logistica viene effettivamente utilizzata per la classificazione. Controllare questo , si potrebbe trovare utile come ho
QuantumHoneybees

@kingJulian: la regressione logistica è una tecnica di classificazione e la classificazione sta per diversi algoritmi che tentano di prevedere pochi esiti.
user3676305

204

Nella regressione lineare, il risultato (variabile dipendente) è continuo. Può avere uno qualsiasi di un numero infinito di possibili valori. Nella regressione logistica, il risultato (variabile dipendente) ha solo un numero limitato di possibili valori.

Ad esempio, se X contiene l'area in piedi quadrati delle case e Y contiene il prezzo di vendita corrispondente di quelle case, è possibile utilizzare la regressione lineare per prevedere il prezzo di vendita in funzione delle dimensioni della casa. Mentre il possibile prezzo di vendita potrebbe non essere effettivamente nessuno , ci sono così tanti possibili valori che verrebbe scelto un modello di regressione lineare.

Se, invece, volessi prevedere, in base alle dimensioni, se una casa venderebbe per più di $ 200.000, utilizzeresti la regressione logistica. Le possibili uscite sono Sì, la casa venderà per più di $ 200.000, oppure No, la casa no.


3
Nell'esempio di regressione logistica del cancro di Andrew, posso tracciare una linea orizzontale y = .5, (che ovviamente passa attraverso y = .5), dieci se un punto si trova sopra questa linea y = .5 => + ve, else -ve . Allora perché ho bisogno di una regressione logistica. Sto solo cercando di capire la migliore spiegazione del caso per usare la regressione logistica?
Vinita,

@vinita: qui o qui è un semplice esempio di non usare la regressione lineare e quindi di trebbiare, per problemi di classificazione.
Ankush Shah,

3
la regressione logistica è il miglior classificatore di dati categorici rispetto alla regressione lineare. Utilizza una funzione di errore di entropia incrociata anziché i minimi quadrati. Pertanto non è così sensibile ai valori anomali e non punisce nemmeno i punti dati "troppo corretti" come fa i minimi quadrati.
Marcel_marcel1991,

15

Solo per aggiungere le risposte precedenti.

Regressione lineare

Ha lo scopo di risolvere il problema di prevedere / stimare il valore di output per un dato elemento X (diciamo f (x)). Il risultato della previsione è una funzione cotinuosa in cui i valori possono essere positivi o negativi. In questo caso, normalmente si dispone di un set di dati di input con molti esempi e il valore di output per ognuno di essi. L'obiettivo è essere in grado di adattare un modello a questo set di dati in modo da poter prevedere quell'output per nuovi elementi diversi / mai visti. Di seguito è riportato il classico esempio di adattamento di una linea all'insieme di punti, ma in generale la regressione lineare potrebbe essere utilizzata per adattarsi a modelli più complessi (utilizzando gradi polinomiali più elevati):

inserisci qui la descrizione dell'immagine Risolvere il problema

La regressione della linea può essere risolta in due modi diversi:

  1. Equazione normale (modo diretto per risolvere il problema)
  2. Discesa a gradiente (approccio iterativo)

Regressione logistica

Ha lo scopo di risolvere i problemi di classificazione in cui dato un elemento devi classificare lo stesso in N categorie. Esempi tipici sono ad esempio dati di posta elettronica per classificarli come spam o no, oppure dati a un veicolo che trova alla categoria di appartenenza (auto, camion, furgone, ecc.). Questo è fondamentalmente l'output è un insieme finito di valori descrittivi.

Risolvere il problema

I problemi di regressione logistica possono essere risolti solo usando la discesa gradiente. La formulazione in generale è molto simile alla regressione lineare, l'unica differenza è l'uso di diverse funzioni di ipotesi. Nella regressione lineare l'ipotesi ha la forma:

h(x) = theta_0 + theta_1*x_1 + theta_2*x_2 .. 

dove theta è il modello che stiamo cercando di adattare e [1, x_1, x_2, ..] è il vettore di input. Nella regressione logistica la funzione di ipotesi è diversa:

g(x) = 1 / (1 + e^-x)

inserisci qui la descrizione dell'immagine

Questa funzione ha una bella proprietà, fondamentalmente mappa qualsiasi valore nell'intervallo [0,1] che è appropriato per gestire le propababilità durante la classificazione. Ad esempio, nel caso di una classificazione binaria, g (X) potrebbe essere interpretato come la probabilità di appartenere alla classe positiva. In questo caso normalmente hai classi diverse che sono separate da un limite di decisione che sostanzialmente è una curva che decide la separazione tra le diverse classi. Di seguito è riportato un esempio di set di dati separato in due classi.

inserisci qui la descrizione dell'immagine


7

Entrambi sono abbastanza simili nel risolvere la soluzione, ma come altri hanno detto, uno (Regressione logistica) è per predire una categoria "adatta" (Y / N o 1/0), e l'altro (Regressione lineare) è per predire un valore.

Quindi, se vuoi prevedere se hai il cancro S / N (o una probabilità), usa la logistica. Se vuoi sapere per quanti anni vivrai - usa la regressione lineare!


6

La differenza di base:

La regressione lineare è fondamentalmente un modello di regressione, il che significa che fornirà un output non discreto / continuo di una funzione. Quindi questo approccio dà il valore. Ad esempio: dato x cos'è f (x)

Ad esempio, dato un set di formazione di diversi fattori e il prezzo di una proprietà dopo la formazione, possiamo fornire i fattori richiesti per determinare quale sarà il prezzo della proprietà.

La regressione logistica è fondamentalmente un algoritmo di classificazione binaria, il che significa che qui ci sarà un output discreto e valutato per la funzione. Ad esempio: per una determinata x se la soglia f (x)> la classifica come 1, la classifica come 0.

Ad esempio, dato un insieme di dimensioni del tumore cerebrale come dati di allenamento, possiamo usare le dimensioni come input per determinare se si tratta di un tumore benino o maligno. Pertanto qui l'output è discreto o 0 o 1.

* qui la funzione è sostanzialmente la funzione di ipotesi


5

In poche parole, la regressione lineare è un algoritmo di regressione, che genera un possibile valore continuo e infinito; la regressione logistica è considerata un algoritmo di classificazione binaria, che genera la "probabilità" dell'input appartenente a un'etichetta (0 o 1).


Grazie al cielo ho letto la tua nota sulla probabilità. Stava per cancellare la logistica come classificatore binario.
HashRocketSyntax,

4

Regressione significa variabile continua, Linear significa che esiste una relazione lineare tra ye x. Ex = Stai provando a prevedere lo stipendio da no di anni di esperienza. Quindi qui lo stipendio è variabile indipendente (y) e anni di esperienza è variabile dipendente (x). y = b0 + b1 * x1 Regressione lineare Stiamo cercando di trovare il valore ottimale della costante b0 e b1 che ci fornirà la migliore linea di adattamento per i tuoi dati di osservazione. È un'equazione di linea che fornisce un valore continuo da x = 0 a un valore molto grande. Questa linea si chiama modello di regressione lineare.

La regressione logistica è il tipo di tecnica di classificazione. Non essere fuorviato dal termine regressione. Qui prevediamo se y = 0 o 1.

Qui dobbiamo prima trovare p (y = 1) (wprobability di y = 1) dato x dalla formuale sotto.

prob

La probabilità p è correlata a y dal formuale di seguito

S

Es = possiamo fare una classificazione del tumore con una probabilità superiore al 50% di avere il cancro come 1 e un tumore con una probabilità inferiore al 50% di avere il cancro come 0. 5

Qui il punto rosso sarà previsto come 0, mentre il punto verde sarà previsto come 1.


1

In breve: la regressione lineare fornisce un output continuo. vale a dire qualsiasi valore compreso in un intervallo di valori. La regressione logistica fornisce un output discreto. cioè Sì / No, 0/1 tipo di uscite.


1

Non posso essere più d'accordo con i commenti sopra. Oltre a ciò, ci sono alcune differenze come

Nella regressione lineare si presume che i residui siano distribuiti normalmente. Nella regressione logistica, i residui devono essere indipendenti ma non distribuiti normalmente.

La regressione lineare presuppone che una variazione costante nel valore della variabile esplicativa comporti una variazione costante nella variabile di risposta. Questo presupposto non vale se il valore della variabile di risposta rappresenta una probabilità (in Regressione logistica)

GLM (modelli lineari generalizzati) non assume una relazione lineare tra variabili dipendenti e indipendenti. Tuttavia, presuppone una relazione lineare tra la funzione di collegamento e le variabili indipendenti nel modello logit.


1
| Basis                                                           | Linear                                                                         | Logistic                                                                                                            |
|-----------------------------------------------------------------|--------------------------------------------------------------------------------|---------------------------------------------------------------------------------------------------------------------|
| Basic                                                           | The data is modelled using a straight line.                                    | The probability of some obtained event is represented as a linear function of a combination of predictor variables. |
| Linear relationship between dependent and independent variables | Is required                                                                    | Not required                                                                                                        |
| The independent variable                                        | Could be correlated with each other. (Specially in multiple linear regression) | Should not be correlated with each other (no multicollinearity exist).                                              |

0

Per dirla semplicemente, se nel modello di regressione lineare arrivano più casi di test che sono molto lontani dalla soglia (diciamo = 0,5) per una previsione di y = 1 e y = 0. Quindi in tal caso l'ipotesi cambierà e peggiorerà, pertanto il modello di regressione lineare non viene utilizzato per il problema di classificazione.

Un altro problema è che se la classificazione è y = 0 e y = 1, h (x) può essere> 1 o <0. Quindi usiamo la regressione logistica era 0 <= h (x) <= 1.


0

La regressione logistica viene utilizzata per la previsione di output categorici come Sì / No, Basso / Medio / Alto, ecc. In pratica si hanno 2 tipi di regressione logistica Regressione logistica binaria (Sì / No, Approvata / Non approvata) o Regressione logistica multi-classe (Bassa / Media / Alto, cifre da 0-9 ecc.)

D'altra parte, la regressione lineare è se la variabile dipendente (y) è continua. y = mx + c è una semplice equazione di regressione lineare (m = pendenza e c è l'intercetta y). La regressione multilineare ha più di 1 variabile indipendente (x1, x2, x3 ... ecc.)


0

Nella regressione lineare il risultato è continuo mentre nella regressione logistica, il risultato ha solo un numero limitato di valori possibili (discreti).

esempio: in uno scenario, il valore dato di x è la dimensione di un diagramma in piedi quadrati, quindi la previsione di y cioè il tasso del diagramma viene sottoposto a regressione lineare.

Se, invece, volessi prevedere, in base alle dimensioni, se la trama sarebbe venduta per più di 300000 R, utilizzeresti la regressione logistica. I possibili output sono Sì, la trama verrà venduta per più di 300000 R o No.


0

Nel caso della regressione lineare l'esito è continuo mentre nel caso della regressione logistica l'esito è discreto (non continuo)

Per eseguire la regressione lineare è necessaria una relazione lineare tra le variabili dipendenti e indipendenti. Ma per eseguire la regressione logistica non è necessaria una relazione lineare tra le variabili dipendenti e indipendenti.

La regressione lineare riguarda l'adattamento di una linea retta nei dati, mentre la regressione logistica riguarda l'adattamento di una curva ai dati.

La regressione lineare è un algoritmo di regressione per l'apprendimento automatico, mentre la regressione logistica è un algoritmo di classificazione per l'apprendimento automatico.

La regressione lineare presuppone una distribuzione gaussiana (o normale) della variabile dipendente. La regressione logistica presuppone una distribuzione binomiale della variabile dipendente.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.