La classificazione in LDA è la seguente (approccio alla regola di Bayes). [Sull'estrazione di discriminanti si potrebbe guardare qui .]
Secondo il teorema di Bayes, la probabilità ricercata di avere a che fare con la classe osservando attualmente il punto è , dovex P ( k | x ) = P ( k ) ∗ P ( x | k ) / P ( x )kxP(k|x)=P(k)∗P(x|k)/P(x)
k P ( x ) x P ( x | k ) x k kP(k) - probabilità incondizionata (di fondo) della classe ; - probabilità incondizionata (di fondo) del punto ; - probabilità di presenza del punto nella classe , se la classe trattata è .kP(x)xP(x|k)xkk
"Osservando attualmente il punto " è la condizione di base, , e quindi il denominatore può essere omesso. Pertanto, .P ( x ) = 1 P ( k | x ) = P ( k ) ∗ P ( x | k )xP(x)=1P(k|x)=P(k)∗P(x|k)
x k P ( k ) P ( k ) P ( k | x ) x k P ( x | k )P(k) è una probabilità (pre-analitica) precedente che la classe nativa per sia ; è specificato dall'utente. Di solito per impostazione predefinita tutte le classi ricevono uguale = 1 / numero_di_classe. Per calcolare , cioè la probabilità posteriore (post-analitica) che la classe nativa per sia , si dovrebbe conoscere .xkP(k)P(k)P(k|x)xkP(x|k)
P ( x | k ) x k P D F ( x | k ) p pP(x|k) - probabilità in sé - non può essere trovata, per i discriminanti, il problema principale di LDA, sono variabili continue, non discrete. La quantità che esprime in questo caso e proporzionale ad essa è la densità di probabilità (funzione PDF). Con la presente abbiamo bisogno di PDF di calcolo per il punto in classe , , in dimensionale distribuzione normale formato da valori di discriminanti. [Vedi Wikipedia Distribuzione normale multivariata]P(x|k)xkPDF(x|k)pp
PDF(x|k)=e−d/2(2π)p/2|S|−−−√)
dove - quadrata distanza di Mahalanobis [Vedi Wikipedia distanza di Mahalanobis] nello spazio dei discriminanti dal punto a un centroide di classe; - matrice di covarianza tra i discriminanti , osservata all'interno di quella classe.x SdxS
Calcola in questo modo per ciascuna delle classi. per il punto classe esprimono il ricercato per noi. Ma con la riserva di cui sopra che il PDF non è probabilità di per sé, solo proporzionale ad esso, dovremmo normalizzare , dividendo per la somma di s su tutte le classi. Ad esempio, se ci sono 3 classi in tutto, , , , alloraP ( k ) ∗ P D F ( x | k ) x k P ( k ) ∗ P ( x | k ) P ( k ) ∗ P D F ( x | k ) P ( k ) ∗ P D F ( x | k ) kPDF(x|k)P(k)∗PDF(x|k)xkP(k)∗P(x|k)P(k)∗PDF(x|k)P(k)∗PDF(x|k)kmlm
P(k|x)=P(k)∗PDF(x|k)/[P(k)∗PDF(x|k)+P(l)∗PDF(x|l)+P(m)∗PDF(x|m)]
Il punto è assegnato da LDA alla classe per cui è il più alto.P ( k | x )xP(k|x)
Nota. Questo era l'approccio generale. Molti programmi LDA per difetto di uso raggruppati matrice all'interno della classe per tutte le classi nella formula per PDF sopra. In tal caso, la formula si semplifica notevolmente perché tale in LDA è una matrice di identità (vedi la nota in basso qui ), e quindi e si trasformano in distanza euclidea quadrata (promemoria: il raggruppato all'interno della classe cui stiamo parlando sono le covarianze tra i discriminanti, - non tra le variabili di input, la cui matrice è solitamente designata come ).S | S | = 1 d S S pSS|S|=1dSSw
Aggiunta . Prima che il suddetto approccio alla classificazione di Bayes fosse introdotto in LDA, Fisher, pioniere dell'LDA, aveva proposto di calcolare le cosiddette funzioni di classificazione lineare di Fisher per classificare i punti in LDA. Per il punto il punteggio di funzione appartenente alla classe è la combinazione lineare , dove sono le variabili predittive nell'analisi.k b k v 1 V 1 x + b k v 2 V 2 x + . . . + C o n s t k V 1 , V 2 , . . . V pxkbkv1V1x+bkv2V2x+...+ConstkV1,V2,...Vp
Coefficiente , è il numero di classi e l'elemento della dispersione all'interno della classe raggruppata matrice di -variabili. g s v w p Vbkv=(n−g)∑pwsvwV¯kwgsvwp V
Constk=log(P(k))−(∑pvbkvV¯kv)/2 .
Il punto viene assegnato alla classe per cui il suo punteggio è il più alto. Risultati di classificazione ottenuti con il metodo di questa Fisher (che bypassa l'estrazione di discriminanti impegnata nel complesso eigendecomposition) sono identici a quelli ottenuti con Bayes' metodo solo se riunito entro classe matrice di covarianza viene utilizzato con Bayes' metodo basato su discriminanti (vedi 'Nota' sopra) e tutti i discriminanti vengono utilizzati nella classificazione. Il metodo di Bayes è più generale perché consente di utilizzare anche matrici separate all'interno della classe.x