L'apparente disaccordo delle fonti sull'analisi lineare, quadratica e discriminante di Fisher

Sto studiando analisi discriminanti, ma ho difficoltà a conciliare diverse spiegazioni. Credo che mi debba mancare qualcosa, perché non ho mai incontrato questo (apparente) livello di discrepanza prima. Detto questo, il numero di domande sull'analisi discriminante su questo sito Web sembra essere una testimonianza della sua complessità.

LDA e QDA per diverse classi

Il mio libro di testo principale è Johnson & Wichern Applied Multivariate Statistical Analysis (AMSA) e le note del mio insegnante basate su questo. Ignorerò l'impostazione dei due gruppi, perché credo che la formula semplificata in questa impostazione stia causando almeno un po 'di confusione. Secondo questa fonte, LDA e QDA sono definiti come un'estensione parametrica (assumendo la normalità multivariata) di una regola di classificazione basata sul costo atteso dell'errata classificazione (ECM). L'ECM somma il costo atteso condizionale per classificare una nuova osservazione x per qualsiasi gruppo (includendo i costi di classificazione errata e le probabilità precedenti) e scegliamo regioni di classificazione che riducono al minimo questo. dove

E C M = \sum_{i = 1}^{g r o u p s} p_{i} [\sum_{k = 1; i \neq k}^{g r o u p s} P (k | i) c (k | i)]

$ECM = \sum_{i=1}^{groups} p_i [\sum_{k=1;\space i \ne k}^{groups}P(k|i)c(k|i)]$

P (k | i) = P (classifying item as group k | item is group i) = \int_{R_{k}} f_{i} (x) d x

$P(k|i) = P(\text{classifying item as group k } | \text{ item is group i}) = \int_{R_k} f_i(\boldsymbol{x})d\boldsymbol{x}$ ,

f_{i} (x)

$f_i(\boldsymbol{x})$ è la densità di popolazione,

R_{k}

$R_k$ è l'insieme di osservazioni nel gruppo k,

c

$c$ è il costo e

p_{i}

$p_i$ sono le probabilità precedenti. Nuove osservazioni possono quindi essere assegnate al gruppo per il quale il termine interno è il più piccolo o equivalente per il quale la parte esclusa del termine interno

p_{k} f_{k} (x)

$p_k f_k(\boldsymbol{x})$ è la più grande

Presumibilmente questa regola di classificazione è equivalente a "quella che massimizza le probabilità posteriori" (sic AMSA), che posso solo supporre sia l'approccio di Bayes che ho visto menzionato. È corretto? Ed è ECM un metodo più vecchio, perché non l'ho mai visto accadere altrove.

Per le popolazioni normali questa regola semplifica il punteggio discriminante quadratico: .

d_{i}^{Q} (x) = - \frac{1}{2} l o g (Σ_{i}) - \frac{1}{2} (x - μ_{i})^{T} Σ_{i}^{- 1} (x - μ_{i}) + l o g (p_{i})

$d_i^Q(\boldsymbol{x}) = -\frac{1}{2} log(\boldsymbol{\Sigma_i}) -\frac{1}{2} (\boldsymbol{x - \mu_i})^T \boldsymbol{\Sigma}_i^{-1}(\boldsymbol{x - \mu_i}) + log(p_i)$

Questo sembra equivalente a The Elements of apprendimento statistico (ESL) formula 4.12 a pagina 110, anche se essi descrivono come una discriminante quadratica funzione piuttosto che un punteggio . Inoltre, arrivano qui attraverso il rapporto logaritmico delle densità multivariate (4.9). Questo è un altro nome per l'approccio di Bayes?

Quando assumiamo la stessa covarianza, la formula semplifica ulteriormente il punteggio discriminante lineare .

d_{i} (x) = μ_{i}^{T} Σ^{- 1} x - \frac{1}{2} μ_{i}^{T} Σ^{- 1} μ_{i} + l o g (p_{i})

$d_i(\boldsymbol{x}) = \boldsymbol{\mu_i}^T \boldsymbol{\Sigma}^{-1}\boldsymbol{x} -\frac{1}{2} \boldsymbol{\mu_i}^T \boldsymbol{\Sigma}^{-1} \boldsymbol{\mu_i} + log(p_i)$

Questa formula differisce da ESL (4.10), dove il primo termine è invertito: . La versione ESL è anche quello elencato in apprendimento statistico in R . Inoltre, nell'output SAS presentato in AMSA viene descritta una funzione discriminante lineare costituita da una costante e un coefficiente vector , apparentemente coerente con la versione ESL. $x^T \boldsymbol{\Sigma}^{-1}\mu_k$ $0.5 \bar{X}_j^T COV^{-1}\bar{X}_j + ln \text{ prior}_j$ $COV^{-1}\bar{X}_j$

Quale potrebbe essere la ragione dietro questa discrepanza?

Discriminanti e metodo di Fisher

Nota: se questa domanda è considerata troppo grande, rimuoverò questa sezione e aprirò una nuova domanda, ma si basa sulla sezione precedente. Mi scuso per il muro di testo a prescindere, ho fatto del mio meglio per strutturarlo un po ', ma sono sicuro che la mia confusione su questo metodo ha portato a qualche salto piuttosto strano di logica.

Il libro AMSA continua descrivendo il metodo del pescatore, anche per diversi gruppi. Tuttavia, ttnphns ha sottolineato più volte che FDA è semplicemente LDA con due gruppi. Cos'è quindi questa FDA multiclasse? Forse la FDA può avere molteplici significati?

AMSA descrive i discriminanti di Fisher come gli autovettori di che massimizzano il rapporto . Le combinazioni lineari sono quindi i discriminanti del campione (di cui ci sono ). Per la classificazione scegliamo il gruppo k con il valore più piccolo per dove r è il numero di discriminanti che vorremmo usare. Se utilizziamo tutti i discriminanti questa regola equivarrebbe alla funzione lineare discriminante. $\boldsymbol{W^{-1}B}$ $\boldsymbol{\frac{\hat{a}^TB\hat{a}}{\hat{a}^TW\hat{a}}}$ $\boldsymbol{\hat{e}_ix}$ $min(g-1, p)$ $\sum_{j=1}^{r}[\boldsymbol{\hat{e}_j^T}(\boldsymbol{x}-\boldsymbol{\bar{x}}_k)]^2$

Molte spiegazioni su LDA sembrano descrivere la metodologia che è chiamata FDA nel libro AMSA, cioè a partire da questo aspetto tra / all'interno della variabilità. Cosa significa allora FDA se non la decomposizione delle matrici BW?

Questa è la prima volta che il libro di testo menziona l'aspetto di riduzione dimensionale dell'analisi discriminante, mentre diverse risposte su questo sito sottolineano la natura a due stadi di questa tecnica, ma che ciò non è chiaro in un contesto a due gruppi perché c'è solo 1 discriminante. Date le precedenti formule per LDA e QDA multiclasse, non mi è ancora chiaro dove si presentano i discriminanti.

Questo commento mi ha lasciato particolarmente confuso, osservando che la classificazione di Bayes poteva essenzialmente essere eseguita sulle variabili originali. Ma se FDA e LDA sono matematicamente equivalenti come sottolineato dal libro e qui , la riduzione della dimensionalità non dovrebbe essere inerente alle funzioni ? Credo che sia quello a cui si rivolge l'ultimo link, ma non ne sono del tutto sicuro. $d_i$

Le note del corso del mio insegnante continuano spiegando che la FDA è essenzialmente una forma di analisi della correlazione canonica. Ho trovato solo un'altra fonte che parla di questo aspetto, ma sembra ancora una volta strettamente legata all'approccio di Fisher di decomporre la variabilità tra e all'interno. SAS presenta un risultato nella sua procedura LDA / QDA (DISCRIM) che apparentemente è correlato al metodo di Fisher ( https://stats.stackexchange.com/a/105116/62518 ). Tuttavia, l'opzione FDA di SAS (CANDISC) esegue essenzialmente una correlazione canonica, senza presentare questi cosiddetti coefficienti di classificazione di Fisher. Presenta coefficienti canonici grezzi che ritengo equivalenti agli autovettori W-1B di R ottenuti da lda (MASS) (https://support.sas.com/documentation/cdl/en/statug/63033/HTML/default/viewer.htm#statug_candisc_sect019.htm ). I coefficienti di classificazione sembrano essere ottenuti dalla funzione discriminante che ho descritto nella mia sezione LDA e QDA (poiché esiste 1 funzione per popolazione e scegliamo la più grande).

Sarei grato per qualsiasi chiarimento o riferimento a fonti che potrebbero aiutarmi a vedere la foresta attraverso gli alberi. La causa principale della mia confusione sembra essere che libri di testo diversi chiamano metodi con nomi diversi o presentano una leggera variazione della matematica, senza riconoscere le altre possibilità, anche se immagino che ciò non dovrebbe sorprendere considerando l'età del libro AMSA .

multivariate-analysis discriminant-analysis

— Zenit
fonte

If we use all the discriminants this rule would be equivalent to the linear discriminant functionPoco chiaro. "Discriminante" e "funzione discriminante" sono sinonimo di. È possibile utilizzare tutti i discriminanti o solo alcuni dei più forti / significativi di essi. Non mi sono rivolto al libro AMSA ma sospetto che FDA = LDA, per gli autori. In realtà, personalmente ritengo che "Fisher LDA" sarebbe un termine in eccesso e inutile.

— ttnphns,

In "Aggiunta" a questa risposta sulla classificazione LDA noto che calcolare "Funzioni di classificazione lineare di Fisher" direttamente dalle variabili è equivalente a Extract the discriminants -> classify by them all (using Bayes approach, as usual)quando, come di solito per impostazione predefinita, nella classificazione viene utilizzata la matrice di covarianza all'interno della classe dei discriminanti.

— ttnphns,

In realtà, le "funzioni di classificazione lineare di Fisher" sono un modo per fare LDA senza fare la composizione geografica W^-1Be poi fare "Bayes". È equivalente, ma è meno flessibile (non è possibile selezionare solo alcuni dei discriminanti, non è possibile utilizzare matrici separate all'interno della classificazione nella classificazione, ecc.).

— ttnphns,

Sto ancora digerendo la tua risposta e i tuoi collegamenti (grazie), ma: 1) Ecco un estratto di AMSA che chiarisce "discriminanti" e "punteggi discriminanti" i.imgur.com/7W7vc8u.jpg?1 Ho usato i termini "punteggio" e "funzione" in modo intercambiabile. 3) Nello stesso estratto, puoi vedere che il libro AMSA si riferisce alla come un modo per ottenere i discriminanti di Fisher. Il modo in cui viene presentato qui il metodo di Fisher sembra più flessibile del metodo lineare / quadratico che si traduce semplicemente in una funzione / punteggio fortemente discriminante.

W^{- 1} B

$\boldsymbol{W^{-1}B}$

— Zenit,

Zenit, per me, il punteggio discriminante è il valore di una funzione (canonica) discriminante. Non posso spingermi fino a confrontare le formule che citi con ciò che so su come vengono calcolati i discriminanti canonici in SPSS . Ti suggerisco di fare calcoli e confrontare i risultati e pubblicare le tue conclusioni. Inoltre, sospetto che testi diversi possano applicare l'etichetta "Fisher" in modo diverso.

— ttnphns,

Mi rivolgo solo a un aspetto della domanda e lo faccio in modo intuitivo senza algebra.

Se le classi hanno le stesse matrici varianza-covarianza e differiscono solo per lo spostamento dei loro centroidi nello spazio dimensionale, allora sono completamente separabili linearmente nel "sottospazio" . Questo è ciò che LDA sta facendo. Immagina di avere tre ellissoidi identici nello spazio delle variabili . Devi utilizzare le informazioni di tutte le variabili per prevedere l'appartenenza alla classe senza errori. Ma a causa del fatto che queste erano nuvole di dimensioni identiche e orientate, è possibile ridimensionarle con una trasformazione comune in sfere di raggio unitario. Quindi $g$ $p$ $q=min(g-1,p)$ $V_1, V_2, V_3$ $q=g-1=2$ dimensioni indipendenti saranno sufficienti per prevedere l'appartenenza alla classe esattamente come in precedenza. Queste dimensioni sono chiamate funzioni discriminanti . Avendo 3 sfere di punti della stessa dimensione sono necessarie solo 2 linee assiali e per conoscere le coordinate dei centri delle sfere su di esse per assegnare correttamente ogni punto. $D_1, D_2$

I discriminanti sono variabili non correlate, le loro matrici di covarianza all'interno della classe sono idealmente identitarie (le palle). I discriminanti formano un sottospazio dello spazio delle variabili originali: sono le loro combinazioni lineari. Tuttavia, non sono assi simili alla rotazione (simili a PCA): visti nello spazio delle variabili originali, i discriminanti in quanto gli assi non si mutuano ortogonalmente .

Quindi, presupponendo l'omogeneità della varianza all'interno della classe-covarianze che l'LDA utilizza per classificare tutti i discriminanti esistenti non è peggio che classificarsi immediatamente con le variabili originali. Ma non devi usare tutti i discriminanti. È possibile utilizzare solo prima il più forte / statisticamente significativo di essi. In questo modo si perdono informazioni minime per la classificazione e la classificazione errata sarà minima. Vista da questa prospettiva, LDA è una riduzione dei dati simile alla PCA, solo controllata. $m<q$

Si noti che assumendo l'omogeneità (+ normalità multivariata) e purché si preveda di utilizzare, ma tutti i discriminanti nella classificazione, è possibile aggirare l' estrazione dei discriminanti stessi - che comporta un autovalutazione generalizzata - e calcolare le cosiddette "funzioni di classificazione di Fisher" direttamente dalle variabili, al fine di classificarle con esse , con il risultato equivalente. Quindi, quando le classi hanno forma identica, potremmo considerare le variabili di input o le funzioni di Fisher o le discriminanti come tutte le serie equivalenti di "classificatori". Ma i discriminanti sono più convenienti sotto molti aspetti. $g$ $p$ $g$ $q$ $^1$

Dato che di solito le classi non sono "ellissi identiche" nella realtà, la classificazione per i discriminanti è in qualche modo più povera che se si fa la classificazione di Bayes per tutte le variabili originali. Ad esempio, su questo diagramma i due ellissoidi non sono paralleli tra loro; e si può comprendere visivamente che il singolo discriminante esistente non è sufficiente per classificare i punti con la precisione consentita dalle due variabili. La QDA (analisi discriminante quadratica) sarebbe quindi un'approssimazione migliore di quella della LDA. Un approccio pratico a metà strada tra LDA e QDA consiste nell'utilizzare i discriminanti LDA ma usare le loro matrici di covarianza di classe separata osservate al momento della classificazione ( vedere , vedere $q$ $p$ ) invece della loro matrice aggregata (che è l'identità).

(E sì, LDA può essere visto come strettamente correlato, anche a un caso specifico di, MANOVA e analisi di correlazione canonica o regressione multivariata di grado ridotto - vedi , vedi , vedi .)

$^1$ Una nota terminologica importante. In alcuni testi le funzioni di classificazione di Fisher possono essere chiamate "funzioni discriminanti di Fisher", che possono confondere con i discriminanti che sono funzioni discriminatorie canoniche (cioè ottenute nella composizione geografica di $g$ $q$ $\bf W^{-1}B$ ). Per chiarezza, raccomando di dire "Funzioni di classificazione di Fisher" vs "Funzioni canoniche discriminanti" (= discriminanti, in breve). Nella comprensione moderna, LDA è l'analisi discriminante lineare canonica. "L'analisi discriminante di Fisher" è, almeno per quanto ne so, o LDA con 2 classi (dove il singolo discriminante canonico è inevitabilmente la stessa cosa delle funzioni di classificazione di Fisher) o, in generale, il calcolo delle funzioni di classificazione di Fisher in contesti multiclasse.

— ttnphns
fonte

Ri terminologia: l'articolo di Wikipedia su LDA ( en.wikipedia.org/wiki/Linear_discriminant_analysis ) afferma che "I termini discriminante lineare di Fisher e LDA sono spesso usati in modo intercambiabile, sebbene l'articolo originale di Fisher [1] in realtà descriva un discriminante leggermente diverso, il che fa non fare alcune delle ipotesi di LDA come classi normalmente distribuite o covarianze di pari classe. " Sulla base di questo, LDA su 2 classi sembra essere un caso speciale della "FDA", se le covarianze di gruppo sono "le stesse". @ttnphns: è corretto?

— Laryx Decidua,

@LaryxDecidua, in questo caso non sono sicuro al 100% della terminologia e ho visto opinioni diverse. Non uso affatto il termine "DA Fisher". Ma quando le persone chiedono, gli rispondo, "FDA è LDA con 2 classi".

— ttnphns,

Grazie, per me l'aspetto più interessante è che "FDA", secondo Wikipedia, non assume la normalità, mentre "LDA" (e QDA) lo fanno. Forse "FDA è LDA con 2 classi, non assumendo normalità o omoscedasticità".

— Laryx Decidua,