Approcci di Bayesian e Fisher all'analisi lineare discriminante

Conosco 2 approcci per fare LDA, l' approccio bayesiano e l' approccio di Fisher .

Supponiamo di avere i dati , dove è il predittore dimensionale e è la variabile dipendente delle classi $(x,y)$ $x$ $p$ $y$ $K$

Con l'approccio bayesiano , calcoliamo il posteriore , e as detto nei libri, supponiamo che sia gaussiano, ora abbiamo la funzione discriminante per la classe come , posso vedere è un lineare funzione di , quindi per tutte le classi abbiamo funzioni discriminanti lineari

p (y_{k} | x) = \frac{p (x | y_{k}) p (y_{k})}{p (x)} \propto p (x | y_{k}) p (y_{k})

$p(y_k|x)=\frac{p(x|y_k)p(y_k)}{p(x)}\propto p(x|y_k)p(y_k)$

p (x | y_{k})

$p(x|y_k)$

k

$k$

\begin{aligned} f_{k} (x) & = \ln p (x | y_{k}) + \ln p (y_{k}) \\ = \ln [\frac{1}{(2 π)^{p / 2} | Σ |^{1 / 2}} \exp (- \frac{1}{2} (x - μ_{k})^{T} Σ^{- 1} (x - μ_{k}))] + \ln p (y_{k}) \\ = x^{T} Σ^{- 1} μ_{k} - \frac{1}{2} μ_{k}^{T} Σ^{- 1} μ_{k} + \ln p (y_{k}) \end{aligned}

$\begin{align*}f_k(x)&=\ln p(x|y_k)+\ln p(y_k)\\&=\ln\left[\frac{1}{(2\pi)^{p/2}|\Sigma|^{1/2}}\exp\left(-\frac{1}{2}(x-\mu_k)^T\Sigma^{-1}(x-\mu_k)\right)\right]+\ln p(y_k)\\&=x^T\Sigma^{-1}\mu_k-\frac{1}{2}\mu_k^T\Sigma^{-1}\mu_k+\ln p(y_k)\end{align*}$

f_{k} (x)

$f_k(x)$

x

$x$

K

$K$

K

$K$

Tuttavia, con l'approccio di Fisher , proviamo a proiettare lo spazio dimensionale da a per estrarre le nuove funzionalità che minimizzano la varianza all'interno della classe e massimizzano la varianza tra le classi , diciamo che la matrice di proiezione è con ogni colonna che è una proiezione direzione. Questo approccio è più simile a una tecnica di riduzione dimensionale . $x$ $(K-1)$ $W$

Le mie domande sono

(1) Possiamo ridurre la dimensione usando l'approccio bayesiano? Voglio dire, possiamo usare l'approccio bayesiano per fare la classificazione trovando le funzioni discriminanti che danno il valore più grande per la nuova , ma queste funzioni discriminanti essere usate per proiettare su dimensioni inferiori subspazio? Proprio come l'approccio di Fisher . $f_k(x)$ $x^*$ $f_k(x)$ $x$

(2) Fare e in che modo i due approcci si relazionano tra loro? Non vedo alcuna relazione tra loro, perché uno sembra solo essere in grado di fare la classificazione con il valore e l'altro è principalmente finalizzato alla riduzione della dimensione. $f_k(x)$

AGGIORNARE

Grazie a @amoeba, secondo il libro ESL, ho trovato questo: inserisci qui la descrizione dell'immagine

e questa è la funzione discriminante lineare, derivata dal teorema di Bayes e supponendo che tutte le classi abbiano la stessa matrice di covarianza . E questa funzione discriminante è la stessa come quella ho scritto sopra. $\Sigma$ $f_k(x)$

Posso usare come direzione su cui proiettare , al fine di ridurre la dimensione? Non ne sono sicuro, dal momento che AFAIK, la riduzione dimensionale è ottenuta mediante l' analisi della varianza inter-entro . $\Sigma^{-1}\mu_k$ $x$

AGGIORNARE ANCORA

Dalla sezione 4.3.3, ecco come derivano queste proiezioni:

inserisci qui la descrizione dell'immagine

e, naturalmente, assume una covarianza condivisa tra le classi, ovvero la matrice di covarianza comune (per la covarianza all'interno della classe) $W$ , giusto? Il mio problema è come calcolare questa dai dati? Dal momento che avrei diverse matrici di covarianza all'interno della classe se provassi a calcolare dai dati. Quindi devo mettere insieme tutta la covarianza di classe per ottenerne una comune? $W$ $K$ $W$

discriminant-analysis

— avocado
fonte

La tua domanda mescola due cose. Penso che tu non abbia digerito la nostra conversazione sulla tua domanda precedente . Quello che descrivi per primo è l'approccio bayesiano alla classificazione (non "approccio bayesiano all'ADL"). Questo approccio può essere utilizzato (1) con variabili originali come classificatori o (2) con discriminanti ottenuti in LDA come classificatori. Qual è l'approccio di Fisher allora?

— ttnphns,

(Cont.) Bene, "LDA di Fisher" è semplicemente LDA con K = 2. Durante la classificazione all'interno di tale LDA, Fisher ha inventato le proprie formule per fare la classificazione. Queste formule possono funzionare anche per K> 2. Il suo metodo di classificazione è poco utilizzato al giorno d'oggi perché l'approccio di Bayes è più generale.

— ttnphns,

@ttnphns, il motivo per cui sono confuso è perché quasi ogni libro che ho citato per parlare di LDA usando questo approccio bayesiano, insegnando LDA come modello generativo, non menzionano il rapporto tra varianza tra i gruppi e all'interno di vairance di gruppo .

— avocado,

@loganecolss: Hai visto la mia risposta qui sotto? Hai delle domande a riguardo? Sono un po 'confuso, perché pensavo di aver spiegato cosa stai chiedendo di nuovo nei commenti. L'approccio "tra varianza all'interno" è matematicamente equivalente a "approccio bayesiano" con un'ipotesi di pari covarianze. Puoi pensare a questo come a un sorprendente teorema matematico, se vuoi. La prova è data nel libro di Hastie che è disponibile gratuitamente online e anche in altri libri di testo di apprendimento automatico. Quindi non sono sicuro di cosa significhi "l'unico modo autentico di fare LDA"; questi due modi identici.

— amoeba,

@loganecolss: Credimi, sono equivalenti :) Sì, dovresti essere in grado di ricavare le proiezioni, ma hai bisogno di un'ipotesi aggiuntiva di uguali matrici di covarianza (come ho scritto nella mia risposta). Vedi il mio commento qui sotto.

— amoeba,

Fornirò solo una breve risposta informale e farò riferimento alla sezione 4.3 di The Elements of Statistical Learning per i dettagli.

Aggiornamento: "Gli elementi" capiscono in modo molto dettagliato esattamente le domande che stai ponendo qui, incluso quello che hai scritto nel tuo aggiornamento. La sezione pertinente è 4.3, in particolare 4.3.2-4.3.3.

(2) Fare e in che modo i due approcci si relazionano tra loro?

$x$

$x$ $x$

Un'intuizione importante è che le equazioni si semplificano considerevolmente se si presume che tutte le classi abbiano la stessa covarianza [ Aggiornamento: se lo si è assunto da sempre, questo potrebbe essere stato parte del malinteso] . In quel caso i confini delle decisioni diventano lineari, ed è per questo che questa procedura è chiamata analisi discriminante lineare, LDA.

Ci vogliono alcune manipolazioni algebriche per rendersi conto che in questo caso le formule diventano effettivamente esattamente equivalenti a ciò che Fisher ha elaborato usando il suo approccio. Pensa a questo come a un teorema matematico. Vedi il libro di testo di Hastie per tutta la matematica.

(1) Possiamo ridurre la dimensione usando l'approccio bayesiano?

Se per "approccio bayesiano" intendi trattare con matrici di covarianza diverse in ogni classe, allora no. Almeno non sarà una riduzione della dimensionalità lineare (a differenza di LDA), a causa di ciò che ho scritto sopra.

$\Sigma^{-1} \mu_k$ $k$ $\boldsymbol \Sigma^{-1} \mathbf{M}$ $\mathbf{M}$ $\mu_k$

— ameba
fonte

+1. Potrei anche collegarmi alla mia risposta menzionando le statistiche QDA.stackexchange.com/a/71571/3277 .

— ttnphns,

+1 per la parte relativa alla mia domanda 2). So che eseguendo l' analisi della varianza inter-entro , sono riuscito a trovare le migliori indicazioni per proiettare la variabile originale e ottenere quei discriminanti. Ciò con cui sto lottando in questo momento è riuscire a trovare quelle direzioni di proiezione usando Bayesian, senza fare riferimento al rapporto di varianza tra l'interno ?

X

$X$

— avocado,

@loganecolss: Come ho detto, è necessario supporre che tutte le classi abbiano la stessa matrice di covarianza! Quindi, a partire dal tuo approccio bayesiano + questo presupposto, puoi ricavare le proiezioni LDA standard. L'idea è di diagonalizzare . Questo è scritto in dettaglio in The Elements of Statistical Learning, sezione 4.3.

Σ

$\boldsymbol \Sigma$

— amoeba,

Leggerò quella sezione più tardi. Come hai detto, supponendo che tutte le classi abbiano la stessa matrice di covarianza, posso derivare una funzione che è quella che ho scritto nel mio post , giusto? E è davvero una funzione lineare di , e secondo il tuo commento, dovrebbe essere la matrice di proiezione LDA?

f_{k} (x)

$f_k(x)$

f_{k} (x)

$f_k(x)$

x

$x$

Σ^{- 1} μ_{k}

$\Sigma^{-1}\mu_k$

— avocado,

Aggiorno il mio post, aggiungendo una clip della sezione 4.3

— avocado del