Qual è la differenza tra regressione lineare e regressione logistica?
Quando useresti ciascuno?
Qual è la differenza tra regressione lineare e regressione logistica?
Quando useresti ciascuno?
Risposte:
La regressione lineare utilizza l'equazione lineare generale dove è una variabile dipendente continua e le variabili indipendenti sono generalmente continue (ma possono anche essere binarie, ad esempio quando il modello lineare viene utilizzato in un t- test) o altri domini discreti. è un termine per la varianza che non è spiegato dal modello e di solito viene chiamato semplicemente "errore". I singoli valori dipendenti indicati da possono essere risolti modificando leggermente l'equazione:Y X i ϵ Y j
La regressione logistica è un'altra procedura del modello lineare generalizzato (GLM) che utilizza la stessa formula di base, ma invece della continua , sta regredendo per la probabilità di un risultato categorico. Nella forma più semplice, questo significa che stiamo prendendo in considerazione solo una variabile di risultato e due stati di quella variabile - 0 o 1.
L'equazione per la probabilità di è simile alla seguente: P ( Y = 1 ) = 1
Le variabili indipendenti possono essere continue o binarie. I coefficienti di regressione possono essere esponenziati per darti la variazione delle probabilità di per variazione in , ovvero e . è chiamato odds ratio, . In inglese, puoi dire che le probabilità di aumentano di un fattore di per cambio di unità in . Y=1ebiXi
Esempio: se volessi vedere come l'indice di massa corporea preveda il colesterolo nel sangue (una misura continua), useresti la regressione lineare come descritto all'inizio della mia risposta. Se volessi vedere come l'IMC preveda le probabilità di essere un diabetico (una diagnosi binaria), useresti la regressione logistica.
La regressione lineare viene utilizzata per stabilire una relazione tra variabili dipendenti e indipendenti, utile per stimare la variabile dipendente risultante in caso di variazione variabile indipendente. Per esempio:
Utilizzando una regressione lineare, la relazione tra Rain (R) e Umbrella Sales (U) risulta essere - U = 2R + 5000
Questa equazione dice che per ogni 1mm di pioggia c'è una richiesta di 5002 ombrelli. Quindi, usando la regressione semplice, puoi stimare il valore della tua variabile.
La regressione logistica viene invece utilizzata per accertare la probabilità di un evento. E questo evento viene acquisito in formato binario, ovvero 0 o 1.
Esempio: voglio accertare se un cliente acquisterà il mio prodotto o meno. Per questo, vorrei eseguire una regressione logistica sui dati (rilevanti) e la mia variabile dipendente sarebbe una variabile binaria (1 = Sì; 0 = No).
In termini di rappresentazione grafica, la regressione lineare fornisce una linea lineare come output, una volta che i valori sono tracciati sul grafico. Considerando che, la regressione logistica dà una linea a forma di S.
Riferimento da Mohit Khurana.
Le differenze sono state risolte da DocBuckets e Pardis, ma voglio aggiungere un modo per confrontare le loro prestazioni non menzionate.
La regressione lineare viene generalmente risolta riducendo al minimo l'errore dei minimi quadrati del modello, pertanto gli errori di grandi dimensioni vengono penalizzati in modo quadratico. La regressione logistica è esattamente l'opposto. L'uso della funzione di perdita logistica comporta la penalizzazione di errori di grandi dimensioni a una costante asintoticamente.
Considera la regressione lineare sui risultati categorici di {0,1} per capire perché questo è un problema. Se il tuo modello prevede che il risultato è 38 quando la verità è 1, non hai perso nulla. La regressione lineare proverebbe a ridurre quella 38, la logistica no (altrettanto).