Analisi discriminanti vs regressione logistica


16

Ho trovato alcuni professionisti dell'analisi discriminante e ho delle domande a riguardo. Così:

Quando le classi sono ben separate, le stime dei parametri per la regressione logistica sono sorprendentemente instabili. I coefficienti possono andare all'infinito. LDA non soffre di questo problema.

Se il numero di funzioni è piccolo e la distribuzione dei predittori X è approssimativamente normale in ciascuna delle classi, il modello discriminante lineare è di nuovo più stabile del modello di regressione logistica.

  1. Cos'è la stabilità e perché è importante? (Se la regressione logistica fornisce una buona misura che fa il suo lavoro, allora perché dovrei preoccuparmi della stabilità?)

LDA è popolare quando abbiamo più di due classi di risposta, perché fornisce anche viste a bassa dimensione dei dati.

  1. Semplicemente non lo capisco. In che modo LDA fornisce viste a bassa dimensione?
  2. Se puoi nominare più pro o contro, sarebbe bello.

3
Potresti anche voler leggere altri Q / A su questo argomento (lda vs logistica). Si prega di cercare in questo sito.
ttnphns,

Risposte:


13

Quando le classi sono ben separate, le stime dei parametri per la regressione logistica sono sorprendentemente instabili. I coefficienti possono andare all'infinito. LDA non soffre di questo problema.

Se ci sono valori di covariata che possono prevedere perfettamente il risultato binario, l'algoritmo di regressione logistica, ovvero il punteggio di Fisher, non converge nemmeno. Se stai usando R o SAS riceverai un avviso che sono state calcolate le probabilità zero e uno e che l'algoritmo si è bloccato. Questo è il caso estremo di una separazione perfetta ma anche se i dati sono separati solo in larga misura e non perfettamente, lo stimatore della massima verosimiglianza potrebbe non esistere e anche se esiste, le stime non sono affidabili. L'adattamento risultante non è affatto buono. Ci sono molti thread che affrontano il problema della separazione su questo sito, quindi dai un'occhiata.

Al contrario, non si incontrano spesso problemi di stima con il discriminante di Fisher. Può ancora succedere se la matrice tra o all'interno della covarianza è singolare ma questo è un caso piuttosto raro. In effetti, se esiste una separazione completa o quasi completa, tanto meglio perché il discriminante ha maggiori probabilità di avere successo.

Vale anche la pena ricordare che, contrariamente alla credenza popolare, LDA non si basa su ipotesi di distribuzione. Richiediamo implicitamente solo l'uguaglianza delle matrici di covarianza della popolazione poiché uno stimatore aggregato viene utilizzato per la matrice di covarianza interna. In base alle ipotesi aggiuntive di normalità, pari probabilità precedenti e costi di classificazione errata, l'ADL è ottimale nel senso che minimizza la probabilità di classificazione errata.

In che modo LDA fornisce viste a bassa dimensione?

È più facile vederlo nel caso di due popolazioni e due variabili. Ecco una rappresentazione pittorica di come funziona LDA in quel caso. Ricorda che stiamo cercando combinazioni lineari delle variabili che massimizzano la separabilità. inserisci qui la descrizione dell'immagine

Quindi i dati vengono proiettati sul vettore la cui direzione raggiunge meglio questa separazione. Come scopriamo che il vettore è un problema interessante dell'algebra lineare, sostanzialmente massimizziamo un quoziente di Rayleigh, ma per ora lo lasciamo da parte. Se i dati vengono proiettati su quel vettore, la dimensione viene ridotta da due a uno.

pg min(g1,p)

Se puoi nominare più pro o contro, sarebbe bello.

La rappresentazione a bassa dimensione non presenta tuttavia inconvenienti, il più importante è ovviamente la perdita di informazioni. Questo è meno un problema quando i dati sono separabili linearmente, ma se non lo sono la perdita di informazioni potrebbe essere sostanziale e il classificatore funzionerà male.

Ci possono anche essere casi in cui l'uguaglianza delle matrici di covarianza potrebbe non essere un presupposto sostenibile. È possibile utilizzare un test per essere sicuri, ma questi test sono molto sensibili alle deviazioni dalla normalità, quindi è necessario fare questo presupposto aggiuntivo e testarlo. Se si riscontra che le popolazioni sono normali con matrici di covarianza disuguali si potrebbe usare una regola di classificazione quadratica (QDA), ma trovo che questa sia una regola piuttosto imbarazzante, per non parlare di controintuitività in dimensioni elevate.

Nel complesso, il vantaggio principale dell'ADL è l'esistenza di una soluzione esplicita e la sua convenienza computazionale che non è il caso di tecniche di classificazione più avanzate come SVM o reti neurali. Il prezzo che paghiamo è l'insieme delle ipotesi che ne derivano, vale a dire la separabilità lineare e l'uguaglianza delle matrici di covarianza.

Spero che sia di aiuto.

EDIT : sospetto che la mia affermazione che l'ADL sui casi specifici che ho citato non richieda ipotesi distributive diverse dall'uguaglianza delle matrici di covarianza mi è costato un downvote. Ciò non è meno vero, quindi permettetemi di essere più specifico.

x¯i, i=1,2Spool

maxun'(un'TX¯1-un'TX¯2)2un'TSpoolun'=maxun'(un'Td)2un'TSpoolun'

La soluzione di questo problema (fino a una costante) può essere dimostrata essere

un'=Spool-1d=Spool-1(X¯1-X¯2)

Ciò equivale alla LDA derivata dal presupposto di normalità, matrici di covarianza uguali, costi di classificazione errata e probabilità precedenti, giusto? Bene sì, tranne ora che non abbiamo assunto la normalità.

Non c'è nulla che ti impedisca di usare il discriminante sopra in tutte le impostazioni, anche se le matrici di covarianza non sono realmente uguali. Potrebbe non essere ottimale nel senso del costo atteso della classificazione errata (ECM), ma si tratta di un apprendimento supervisionato in modo da poter sempre valutare le sue prestazioni, usando ad esempio la procedura di controllo.

Riferimenti

Bishop, Christopher M. Neural networks per il riconoscimento di schemi. Oxford University Press, 1995.

Johnson, Richard Arnold e Dean W. Wichern. Analisi statistica multivariata applicata. Vol. 4. Englewood Cliffs, NJ: Prentice hall, 1992.


1
(Non sono l'utente che ha effettuato il downgrade). Per provare a conciliare la tua risposta con quella di Frank Harell, mi sembra che bisogna ancora supporre che tutte le variabili siano continue (altrimenti, penso che il massimo del quoziente di Rayleigh non sarebbe unico).
user603,

1
@ user603 Non ho visto da nessuna parte questa condizione. La soluzione viene comunque determinata fino a una costante.
JohnK,

John, Immagina che ci siano solo 2 classi (e quindi solo una linea discriminante) con distribuzioni identiche, simmetriche (ellissoidali) e pari probabilità precedenti. Quindi, in effetti, non è necessario assumere una distribuzione specificamente normale perché non è necessario alcun pdf per assegnare un caso a una classe. In impostazioni più complesse (come le classi 3+) dobbiamo usare un po 'di pdf, ed è normalmente normale.
ttnphns,

1
W-1BWB tra. Quindi puoi assegnare alle classi usando la normale distribuzione normale ma puoi anche usare qualcos'altro se vuoi. Ciò non invalida l'approccio.
JohnK,

1
John, il tuo ultimo commento è su di te e io concordo.
ttnphns,

10

LDA fa ipotesi distributive gravi (normalità multivariata di tutti i predittori) a differenza della regressione logistica. Prova a ottenere le probabilità posteriori dell'appartenenza alla classe sulla base del sesso dei soggetti e capirai cosa intendo: le probabilità non saranno accurate.

Y=1β±±30

Vedi questo per maggiori informazioni.

Si noti che se la normalità multivariabile è valida, dal teorema di Bayes valgono le ipotesi di regressione logistica. Il contrario non è vero.

La normalità (o quantomeno la simmetria) deve quasi valere per le varianze e le covarianze per "fare il lavoro". I predittori distribuiti normalmente non multivariati danneggeranno persino la fase di estrazione discriminante.


1
A mio avviso, la normalità è necessaria specificatamente nella fase di classificazione (previsione di classe) di LDA. Non è necessario nella fase di estrazione discriminante (riduzione della dimensionalità), che tuttavia presuppone ancora omogeneità di varianza-covarianza. (È interessante notare che quest'ultima ipotesi potrebbe essere in qualche modo rilasciata in classifica: puoi usare covarianze all'interno della classe separate per i discriminanti lì.)
ttnphns,

3
tt

2
t

2
Sì, SD fa varie ipotesi ed è non affidabile. In misura minore la media rende alcune ipotesi significative. I minimi quadrati, PCA e LDA fanno effettivamente più assunzioni distributive di quanto molti credano.
Frank Harrell,

2
Non sono convinto da questo ragionamento e credo ancora che il downvote sia stato ingiusto, ma non ho autorità in merito. I riferimenti che ho fornito ti diranno lo stesso comunque.
JohnK,

0

Quando le classi sono ben separate, le stime dei parametri per la regressione logistica sono sorprendentemente instabili. I coefficienti possono andare all'infinito. LDA non soffre di questo problema.

Disclaimer: Ciò che segue qui manca completamente di rigore matematico.

Per adattarsi bene a una funzione (non lineare) sono necessarie osservazioni in tutte le regioni della funzione in cui "la sua forma cambia". La regressione logistica adatta una funzione sigmoide ai dati:

enter image description here

Nel caso di classi ben separate tutte le osservazioni cadranno sulle due "estremità" in cui il sigmoide si avvicina ai suoi asintoti (0 e 1). Dal momento che tutti i sigmoidi "sembrano uguali" in queste regioni, per così dire, non c'è da meravigliarsi se il cattivo algoritmo di adattamento avrà difficoltà a trovare "quello giusto".

Diamo un'occhiata a due esempi (si spera istruttivi) calcolati con R glm() funzione

Caso 1: I due gruppi si sovrappongono in una certa misura:

enter image description here

e le osservazioni si distribuiscono piacevolmente intorno al punto di flesso del sigmoide montato:

enter image description here

Questi sono i parametri corretti con errori di basso livello:

Coefficients:
             Estimate Std. Error z value Pr(>|z|)    
(Intercept) -17.21374    4.07741  -4.222 2.42e-05 ***
wgt           0.35111    0.08419   4.171 3.04e-05 ***

e anche la devianza sembra OK:

    Null deviance: 138.629  on 99  degrees of freedom
Residual deviance:  30.213  on 98  degrees of freedom

Caso 2: i due gruppi sono ben separati:

enter image description here

e tutte le osservazioni si trovano praticamente sugli asintoti. La glm()funzione ha fatto del suo meglio per adattarsi a qualcosa, ma si è lamentata delle probabilità numericamente 0 o 1, perché semplicemente non ci sono osservazioni disponibili per "ottenere la forma del sigmoide giusto" attorno al suo punto di flessione:

enter image description here

È possibile diagnosticare il problema osservando che gli errori standard dei parametri stimati attraversano il tetto:

Coefficients:
              Estimate Std. Error z value Pr(>|z|)
(Intercept)   -232.638 421264.847  -0.001        1
wgt              5.065   9167.439   0.001        1

e allo stesso tempo la devianza sembra sospettosamente buona (perché le osservazioni si adattano bene agli asintoti):

    Null deviance: 1.3863e+02  on 99  degrees of freedom
Residual deviance: 4.2497e-10  on 98  degrees of freedom

Almeno intuitivamente, da queste considerazioni dovrebbe essere chiaro il motivo per cui "le stime dei parametri per la regressione logistica sono sorprendentemente instabili".


Guarda la risposta di @Frank Harrell che chiaramente non è d'accordo con te! E studia i suoi collegamenti e riferimenti ...
kjetil b halvorsen,

@kjetilbhalvorsen Il mio punto principale è un'illustrazione intuitiva della vestibilità "sorprendentemente instabile". Ho rimosso l'ultima frase in riferimento alla LDA.
Laryx Decidua,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.