Tre versioni dell'analisi discriminante: differenze e come usarle


26

Qualcuno può spiegare le differenze e fornire esempi specifici su come utilizzare queste tre analisi?

  • LDA - Analisi lineare discriminante
  • FDA - Analisi discriminante di Fisher
  • QDA - Quadratic Discriminant Analysis

Ho cercato dappertutto, ma non sono riuscito a trovare esempi reali con valori reali per vedere come vengono utilizzate queste analisi e calcolati i dati, solo molte formule che sono difficili da capire senza esempi reali. Come ho cercato di capire, era difficile distinguere quali equazioni / formule appartenessero a LDA e quali a FDA.

Ad esempio diciamo che ci sono tali dati:

x1 x2 class
1  2  a
1  3  a
2  3  a
3  3  a
1  0  b
2  1  b
2  2  b

E diciamo alcuni dati di test:

x1 x2
2  4
3  5
3  6

Quindi, come utilizzare tali dati con tutti e tre questi approcci? Sarebbe meglio vedere come calcolare tutto a mano, non usando un pacchetto matematico che calcola tutto dietro le quinte.

PS Ho trovato solo questo tutorial: http://people.revoledu.com/kardi/tutorial/LDA/LDA.html#LDA . Mostra come usare LDA.

Risposte:


23

"Fisher's Discriminant Analysis" è semplicemente LDA in una situazione di 2 classi. Quando esistono solo 2 classi, i calcoli a mano sono fattibili e l'analisi è direttamente correlata alla regressione multipla. LDA è l'estensione diretta dell'idea di Fisher sulla situazione di qualsiasi numero di classi e utilizza dispositivi algebrici a matrice (come la composizione elettronica) per calcolarla. Quindi, il termine "Analisi discriminatoria di Fisher" può essere visto oggi come obsoleto. Si dovrebbe usare invece "Analisi discriminante lineare". Vedi anche . L'analisi discriminante con 2+ classi (multi-classe) è canonica dal suo algoritmo (estrae dicriminanti come variate canoniche); termine raro "Analisi discriminatoria canonica"

Fisher ha usato quelle che allora venivano chiamate "funzioni di classificazione Fisher" per classificare gli oggetti dopo che la funzione discriminante era stata calcolata. Al giorno d'oggi, un approccio più generale di Bayes viene utilizzato all'interno della procedura LDA per classificare gli oggetti.

Alla tua richiesta di spiegazioni di LDA posso inviarti queste mie risposte: estrazione in LDA , classificazione in LDA , LDA tra le procedure correlate . Anche questo , questo , questo domande e risposte.

Proprio come ANOVA richiede un'ipotesi di varianze uguali, LDA richiede un'ipotesi di matrici di varianza-covarianza uguali (tra le variabili di input) delle classi. Questa ipotesi è importante per la fase di classificazione dell'analisi. Se le matrici differiscono sostanzialmente, le osservazioni tenderanno ad essere assegnate alla classe in cui la variabilità è maggiore. Per superare il problema, è stato inventato il QDA . QDA è una modifica di LDA che consente l'eterogeneità di cui sopra delle matrici di covarianza delle classi.

Se hai l'eterogeneità (come rilevato ad esempio dal test M di Box) e non hai il QDA a portata di mano, puoi comunque usare LDA nel regime di utilizzo delle singole matrici di covarianza (piuttosto che della matrice aggregata) dei discriminanti alla classificazione . Ciò risolve parzialmente il problema, sebbene in modo meno efficace rispetto al QDA, perché - come appena sottolineato - queste sono le matrici tra i discriminanti e non tra le variabili originali (le cui matrici differivano).

Lasciami analizzare i tuoi dati di esempio per te stesso.


Rispondi alla risposta e ai commenti di @ zyxue

LDA è ciò che hai definito FDA è nella tua risposta. LDA estrae dapprima costrutti lineari (chiamati discriminanti) che massimizzano la separazione tra l'uno e l'altro e quindi li usa per eseguire la classificazione (gaussiana). Se (come dici tu) LDA non fosse legato al compito di estrarre i discriminanti, LDA sembrerebbe essere solo un classificatore gaussiano, non sarebbe necessario alcun nome "LDA".

SwSws sono le stesse covarianze all'interno della classe sono tutte uguali, identità; quel diritto di usarli diventa assoluto.)

Il classificatore gaussiano (il secondo stadio della LDA) usa la regola di Bayes per assegnare osservazioni alle classi da parte dei discriminanti. Lo stesso risultato può essere ottenuto tramite le cosiddette funzioni di classificazione lineare Fisher che utilizzano direttamente le caratteristiche originali. Tuttavia, l'approccio di Bayes basato sui discriminanti è un po 'generale in quanto consentirà di utilizzare anche matrici di covarianza discriminanti di classe separate, oltre al modo predefinito di utilizzarne uno, quello aggregato. Inoltre, consentirà di basare la classificazione su un sottoinsieme di discriminanti.

Quando ci sono solo due classi, entrambe le fasi della LDA possono essere descritte insieme in un unico passaggio perché "l'estrazione di latenti" e la "classificazione delle osservazioni" si riducono allo stesso compito.


Penso di ricordare di aver appreso nel mio corso di apprendimento automatico che la LDA gaussiana di 2 classi ha assunto densità gaussiane e utilizza la regola MPE bayesiana mentre la LDA di Fisher non fa il presupposto gaussiano e cambia il criterio di ottimalità per massimizzare il SNR. Questo è congruente con la tua risposta?
Austin,

1
@Jake Interessato anche a questo, in questa risposta: stats.stackexchange.com/questions/87975/… , si afferma che il risultato è lo stesso. Commenti?
Dole,

Sei sicuro che "" L'analisi discriminatoria di Fisher "sia semplicemente una LDA in una situazione di 2 classi"?
zyxue,

@zyxue, sicuro al 95%, ma trovo comunque il termine obsoleto. Si prega di consultare la mia nota a piè di pagina in stats.stackexchange.com/q/190806/3277 .
ttnphns

@ ttnphns, fyi, secondo youtu.be/hGKt0yy9q_E?t=3010 , FDA e LDA sono spesso confusi in letteratura. Un modo per distinguere i due, FDA è un metodo di estrazione delle caratteristiche mentre LDA e QDA sono tecniche di classificazione.
zyxue,

1

Trovo difficile concordare sul fatto che FDA è LDA per due classi come suggerito da @ttnphns.

Consiglio due lezioni molto istruttive e bellissime su questo argomento del professor Ali Ghodsi:

  1. LDA e QDA . Inoltre, la pagina 108 del libro The Elements of Statistical Learning ( pdf ) ha una descrizione di LDA coerente con la lezione.
  2. FDA

Per me, LDA e QDA sono simili in quanto sono entrambe tecniche di classificazione con ipotesi gaussiane. Una grande differenza tra i due è che LDA assume che le matrici di covarianza caratteristica di entrambe le classi siano le stesse, il che si traduce in un limite di decisione lineare. Al contrario, il QDA è meno rigoroso e consente matrici di covarianza di caratteristiche diverse per classi diverse, il che porta a un confine di decisione quadratico. Vedi la figura seguente di scikit-learn per avere un'idea di come appare il confine della decisione quadratica.

Alcuni commenti sui grafici secondari :

  • Riga superiore: quando le matrici di covarianza sono effettivamente le stesse nei dati, LDA e QDA portano agli stessi limiti di decisione.
  • Riga in basso: quando le matrici di covarianza sono diverse, LDA porta a cattive prestazioni poiché la sua ipotesi diventa invalida, mentre QDA esegue la classificazione molto meglio.

D'altra parte, la FDA è una specie molto diversa, che non ha nulla a che fare con l'ipotesi di Gaussion. Ciò che la FDA cerca di fare è trovare una trasformazione lineare per massimizzare la distanza media tra le classi minimizzando allo stesso tempo la varianza all'interno delle classi . La seconda lezione spiega questa idea magnificamente. Contrariamente a LDA / QDA, la FDA non esegue la classificazione, sebbene le caratteristiche ottenute dopo la trasformazione rilevate dalla FDA possano essere utilizzate per la classificazione, ad esempio utilizzando LDA / QDA o SVM o altri.


2
Si prega di vedere la mia risposta alla tua risposta nella mia risposta. Non ho visto la lezione video a cui ti colleghi, quindi non posso dire se posso essere d'accordo. Non sono d'accordo con l'interpretazione / definizione (di LDA vs FDA) che stai dando nella risposta. Ma quella - definizione dei due termini - non è un argomento molto importante per me. È più importante capire come funziona tutto.
ttnphns

2
Se, secondo la tua comprensione FDA doesn't do classification, although the features obtained after transformation found by FDA could be used for classification, direi che è ciò che chiamo "fase di estrazione di LDA". Naturalmente, queste funzionalità estratte (le funzioni discriminanti) - puoi usarle come preferisci. Nella classificazione LDA standard, sono usati come classificatori gaussiani.
ttnphns

Sono curioso di sapere dove hai letto che " LDA estrae prima i costrutti lineari (chiamati discriminanti)" ? Ho pensato che si chiamasse discriminante lineare perché il limite di decisione è lineare, il che è il risultato dell'ipotesi che la matrice di covarianza caratteristica sia la stessa per classi diverse. Allo stesso modo, il QDA ha un limite di decisione quadratico. Questi sono anche mostrati nelle figure incorporate. Oltre ai video di cui sopra, mi riferisco a The Elements of Statistical Learning ( pdf . A pagina 108, inizia a descrivere LDA senza menzionare l'estrazione delle caratteristiche.
zyxue

Dopotutto, penso che stiamo parlando della stessa cosa, ma è solo un modo di nominare le cose. Pensi che LDA = feature_extraction + classifica, ma sulla base dei miei riferimenti, LDA riguarda solo la classificazione. La parte feature_extraction qui si chiama FDA. È importante sottolineare che non c'è nulla a che fare qui con il numero di classi coinvolte qui. Sia LDA che FDA possono gestire più di due classi.
Zyxue,

Potremmo attenerci anche alle definizioni che usiamo. Comunque, si dovrebbe notare che "costrutti lineari" e "limiti di decisione lineari" sono correlati, nel contesto di DA sono circa la stessa cosa. Guarda la tua foto con il bordo della decisione come linea retta. Quando trasformi anche le classi, le ellissi per essere sferiche, la funzione discriminante sarà precisamente perpendicolare al bordo. In realtà, la cosa "primaria" qui è la funzione discriminante, una variabile, una dimensione, mentre il confine decisionale è il confine nello spazio dipendente dalla direzione di esso. Il confine di dicembre è "secondario".
ttnphns
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.