Regressione logistica vs. LDA come classificatori a due classi


36

Sto cercando di avvolgere la mia testa attorno alla differenza statistica tra analisi discriminante lineare e regressione logistica . Ho capito bene che, per un problema di classificazione di due classi , LDA prevede due funzioni di densità normale (una per ogni classe) che crea un confine lineare in cui si intersecano, mentre la regressione logistica prevede solo la funzione log dispari tra le due classi, che crea un limite ma non assume funzioni di densità per ogni classe?


Vedi anche una domanda simile stats.stackexchange.com/q/14697/3277
ttnphns

Risposte:


35

Mi sembra che tu abbia ragione. La regressione logistica in effetti non assume alcuna forma specifica di densità nello spazio delle variabili predittive, ma LDA lo fa. Ecco alcune differenze tra le due analisi, brevemente.

Binary Logistic regression (BLR) vs Linear Discriminant analysis (con 2 gruppi: noto anche come Fisher's LDA):

  • BLR : basato sulla stima della massima verosimiglianza. LDA : basato sulla stima dei minimi quadrati; equivalente alla regressione lineare con predittore binario (i coefficienti sono proporzionali e R-quadrato = 1-lambda di Wilk).

  • BLR : stima la probabilità (dell'appartenenza al gruppo) immediatamente (il predittando stesso viene preso come probabilità, osservato uno) e condizionatamente. LDA : stima la probabilità mediatamente (il predittore è visto come variabile continua aggregata, discriminante) tramite un dispositivo classificatore (come Bayes ingenuo) che utilizza informazioni condizionali e marginali.

  • BLR : non così esigente per il livello della scala e la forma della distribuzione nei predittori. LDA : Predictir auspicabile livello di intervallo con distribuzione normale multivariata.

  • BLR : nessun requisito per le matrici di covarianza all'interno del gruppo dei predittori. LDA : le matrici di covarianza all'interno del gruppo dovrebbero essere identiche nella popolazione.

  • nn

  • BLR : non così sensibile agli outlier. LDA : abbastanza sensibile agli outlier.

  • BLR : metodo più giovane. LDA : metodo precedente.

  • BLR : di solito preferito, perché meno esigente / più robusto. LDA : con tutti i suoi requisiti soddisfatti, spesso si classifica meglio del BLR (efficienza relativa asintotica 3 volte superiore rispetto a quella successiva).


21

Vorrei aggiungere alcuni punti alla bella lista di @ttnphns:

  • La previsione di Bayes della probabilità di appartenenza alla classe posteriore dell'LDA segue anche una curva logistica.
    [Efron, B. L'efficienza della regressione logistica rispetto alla normale analisi discriminante, J Am Stat Assoc, 70, 892-898 (1975).]

  • Mentre quel documento mostra che l'efficienza relativa di LDA è superiore a LR se le assunzioni di LDA sono soddisfatte (Rif .: documento Efron sopra, ultimo punto di @tthnps), secondo gli Elementi di apprendimento statistico nella pratica non c'è praticamente alcuna differenza.
    [Hastie, T. e Tibshirani, R. e Friedman, J. The Elements of Statistical Learning; Data mining, Inference andPrediction Springer Verlag, New York, 2009]

  • Quell'efficienza relativa enormemente aumentata di LDA si verifica soprattutto nei casi asintotici in cui l'errore assoluto è praticamente trascurabile comunque.
    [Harrell, FE & Lee, KL Un confronto tra la discriminazione dell'analisi discriminante e la regressione logistica sotto la normalità multivariata, Biostatistics: Statistics in Biomedical, Public Health and Environmental Sciences, 333-343 (1985).]

  • Anche se in pratica ho riscontrato situazioni di dimensioni di campione di piccole dimensioni in cui la LDA sembra superiore (nonostante sia la normalità multivariata che le ipotesi della matrice di covarianza uguale non siano visibilmente soddisfatte).
    [ Beleites, C .; Geiger, K .; Kirsch, M .; Sobottka, SB; Schackert, G. & Salzer, R. Raman classificazione spettroscopica dei tessuti di astrocitoma: utilizzando informazioni di riferimento morbido., Anal Bioanal Chem, 400, 2801-2816 (2011). DOI: 10.1007 / s00216-011-4985-4 ]

  • Ma nota che nel nostro documento l'LR sta probabilmente lottando con il problema che si possono trovare direzioni con (quasi) perfetta separabilità. D'altro canto, la LDA potrebbe essere meno gravemente adattabile.

  • I famosi presupposti per LDA sono necessari solo per dimostrare l'ottimalità. Se non vengono rispettati, la procedura può comunque essere una buona euristica.

  • Una differenza che è importante per me in pratica perché i problemi di classificazione su cui lavoro a volte / frequentemente risultano in realtà non essere così chiaramente problemi di classificazione: LR può essere facilmente fatto con dati in cui il riferimento ha livelli intermedi di appartenenza alla classe. Dopotutto, è una tecnica di regressione .
    [vedi documento collegato sopra]

  • Si può dire che LR si concentra più di LDA su esempi vicini al limite di classe e sostanzialmente ignora i casi sul "retro" delle distribuzioni.

  • Questo spiega anche perché è meno sensibile agli outlier (cioè quelli sul retro) rispetto a LDA.

  • (le macchine di supporto vettoriale sarebbero un classificatore che va in questa direzione fino alla fine: qui tutto viene ignorato, tranne i casi al limite)

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.