Analisi discriminante lineare e regola di Bayes: classificazione

Qual è la relazione tra analisi discriminante lineare e regola di Bayes? Comprendo che LDA viene utilizzato nella classificazione cercando di ridurre al minimo il rapporto tra la varianza all'interno del gruppo e tra la varianza del gruppo, ma non so come la regola di Bayes utilizzi in essa.

classification discriminant-analysis bayes

— zca0
fonte

Le funzioni discriminanti vengono estratte in modo da massimizzare il rapporto di variazione tra i gruppi e il rapporto di variazione tra i gruppi. Non ha nulla a che fare con la classificazione, che è la seconda fase autonoma della LDA.

— ttnphns,

La classificazione in LDA è la seguente (approccio alla regola di Bayes). [Sull'estrazione di discriminanti si potrebbe guardare qui .]

Secondo il teorema di Bayes, la probabilità ricercata di avere a che fare con la classe osservando attualmente il punto è , dove $k$ $x$ $P(k|x) = P(k)*P(x|k) / P(x)$

$P(k)$ - probabilità incondizionata (di fondo) della classe ; - probabilità incondizionata (di fondo) del punto ; - probabilità di presenza del punto nella classe , se la classe trattata è . $k$ $P(x)$ $x$ $P(x|k)$ $x$ $k$ $k$

"Osservando attualmente il punto " è la condizione di base, , e quindi il denominatore può essere omesso. Pertanto, . $x$ $P(x)=1$ $P(k|x) = P(k)*P(x|k)$

$P(k)$ è una probabilità (pre-analitica) precedente che la classe nativa per sia ; è specificato dall'utente. Di solito per impostazione predefinita tutte le classi ricevono uguale = 1 / numero_di_classe. Per calcolare , cioè la probabilità posteriore (post-analitica) che la classe nativa per sia , si dovrebbe conoscere . $x$ $k$ $P(k)$ $P(k)$ $P(k|x)$ $x$ $k$ $P(x|k)$

$P(x|k)$ - probabilità in sé - non può essere trovata, per i discriminanti, il problema principale di LDA, sono variabili continue, non discrete. La quantità che esprime in questo caso e proporzionale ad essa è la densità di probabilità (funzione PDF). Con la presente abbiamo bisogno di PDF di calcolo per il punto in classe , , in dimensionale distribuzione normale formato da valori di discriminanti. [Vedi Wikipedia Distribuzione normale multivariata] $P(x|k)$ $x$ $k$ $PDF(x|k)$ $p$ $p$

P D F (x | k) = \frac{e^{- d / 2}}{(2 π)^{p / 2} \sqrt{| S |})}

$PDF(x|k) = \frac {e^{-d/2}} {(2\pi)^{p/2}\sqrt{\bf |S|})}$

dove - quadrata distanza di Mahalanobis [Vedi Wikipedia distanza di Mahalanobis] nello spazio dei discriminanti dal punto a un centroide di classe; - matrice di covarianza tra i discriminanti , osservata all'interno di quella classe. $d$ $x$ $\bf S$

Calcola in questo modo per ciascuna delle classi. per il punto classe esprimono il ricercato per noi. Ma con la riserva di cui sopra che il PDF non è probabilità di per sé, solo proporzionale ad esso, dovremmo normalizzare , dividendo per la somma di s su tutte le classi. Ad esempio, se ci sono 3 classi in tutto, , , , allora $PDF(x|k)$ $P(k)*PDF(x|k)$ $x$ $k$ $P(k)*P(x|k)$ $P(k)*PDF(x|k)$ $P(k)*PDF(x|k)$ $k$ $l$ $m$

Il punto è assegnato da LDA alla classe per cui è il più alto. $x$ $P(k|x)$

Nota. Questo era l'approccio generale. Molti programmi LDA per difetto di uso raggruppati matrice all'interno della classe per tutte le classi nella formula per PDF sopra. In tal caso, la formula si semplifica notevolmente perché tale in LDA è una matrice di identità (vedi la nota in basso qui ), e quindi e si trasformano in distanza euclidea quadrata (promemoria: il raggruppato all'interno della classe cui stiamo parlando sono le covarianze tra i discriminanti, - non tra le variabili di input, la cui matrice è solitamente designata come ). $\bf S$ $\bf S$ $\bf |S|=1$ $d$ $\bf S$ $\bf S_w$

Aggiunta . Prima che il suddetto approccio alla classificazione di Bayes fosse introdotto in LDA, Fisher, pioniere dell'LDA, aveva proposto di calcolare le cosiddette funzioni di classificazione lineare di Fisher per classificare i punti in LDA. Per il punto il punteggio di funzione appartenente alla classe è la combinazione lineare , dove sono le variabili predittive nell'analisi. $x$ $k$ $b_{kv1}V1_x+b_{kv2}V2_x+...+Const_k$ $V1, V2,...V_p$

Coefficiente , è il numero di classi e l'elemento della dispersione all'interno della classe raggruppata matrice di -variabili. $b_{kv}=(n-g)\sum_w^p{s_{vw}\bar{V}_{kw}}$ $g$ $s_{vw}$ $p$ $V$

$Const_k=\log(P(k))-(\sum_v^p{b_{kv}\bar{V}_{kv}})/2$ .

Il punto viene assegnato alla classe per cui il suo punteggio è il più alto. Risultati di classificazione ottenuti con il metodo di questa Fisher (che bypassa l'estrazione di discriminanti impegnata nel complesso eigendecomposition) sono identici a quelli ottenuti con Bayes' metodo solo se riunito entro classe matrice di covarianza viene utilizzato con Bayes' metodo basato su discriminanti (vedi 'Nota' sopra) e tutti i discriminanti vengono utilizzati nella classificazione. Il metodo di Bayes è più generale perché consente di utilizzare anche matrici separate all'interno della classe. $x$

— ttnphns
fonte

Questo è l'approccio bayesiano giusto? Qual è l'approccio del Fisher per questo?

— zca0

Aggiunto alla risposta su richiesta

— ttnphns

+1 per la distinzione tra l'approccio LDA di Bayes e Fisher. Sono un nuovo arrivato in LDA, e i libri che leggo mi insegnano LDA nell'approccio di Bayes, che classifica in classe con il più alto , quindi devo calcolare tutti i per ogni classe , giusto? Con l'approccio di Fisher, ho solo bisogno di capire i discriminanti e i loro coefs corrispondenti, e non ho bisogno di calcolare il posteriore per ogni classe, giusto?

X

$X$

K

$K$

p (K | X)

$p(K|X)$

p (K | X)

$p(K|X)$

K

$K$

— avocado,

E penso che l'approccio di Bayes sia più comprensibile, e perché dobbiamo usare l'approccio di Fisher?

— avocado,

Non abbiamo bisogno. Solo per questioni storiche.

— ttnphns,

Assumere pesi uguali per i due tipi di errore in un problema di due classi. Supponiamo che le due classi abbiano una densità condizionale di classe multivariata delle variabili di classificazione. Quindi per qualsiasi densità osservata di vettore e classe e la regola di Bayes classificherà come appartenente al gruppo 1 se e come classe 2 altrimenti. La regola di Bayes risulta essere un classificatore discriminante lineare se e $x$ $f_1(x)$ $f_2(x)$ $x$ $f_1(x) \geq f_2(x)$ $f_1$ $f_2$ sono entrambe densità normali multivariate con la stessa matrice di covarianza. Naturalmente per poter discriminare utilmente i vettori medi devono essere diversi. Una bella presentazione di questo può essere trovata nella Classificazione dei modelli di Duda e Hart e nell'analisi delle scene del 1973 (il libro è stato recentemente rivisto, ma mi piace in particolare la presentazione nell'edizione originale).

— Michael R. Chernick
fonte