Algebra di LDA. Potere di discriminazione di Fisher di un'analisi discriminante lineare e variabile

Apparentemente,

l'analisi di Fisher mira a massimizzare contemporaneamente la separazione tra classi, minimizzando al contempo la dispersione all'interno delle classi. Una misura utile del potere di discriminazione di una variabile è quindi data dalla quantità diagonale: $B_{ii}/W_{ii}$ .

http://root.cern.ch/root/htmldoc/TMVA__MethodFisher.html

Ho capito che la dimensione ( p x p) della Between ( B ) e Da-classe ( W ) matrici sono indicati dal numero di variabili di input, p. Dato questo, come può essere un "misura utile della potenza discriminazione" di una singola variabile? Sono necessarie almeno due variabili per costruire le matrici B e W, quindi le rispettive tracce rappresenterebbero più di una variabile. $B_{ii}/W_{ii}$

Aggiornamento: ho ragione nel pensare che non è una traccia su una traccia, in cui la somma è implicita, ma l'elemento matrice diviso per ? Attualmente è l'unico modo per conciliare l'espressione con il concetto. $B_{ii}/W_{ii}$ $B_{ii}$ $W_{ii}$

— categoria
fonte

Ecco un breve racconto sull'analisi lineare discriminante (LDA) come risposta alla domanda.

Quando abbiamo una variabile e gruppi (classi) per discriminarla, questo è ANOVA. La potenza discriminazione della variabile è , o . $k$ $SS_\text{between groups} / SS_\text{within groups}$ $B/W$

Quando abbiamo variabili , questo è MANOVA. Se le variabili non sono correlate né nel campione totale né all'interno dei gruppi, il potere di discriminazione sopra riportato, , viene calcolato in modo analogo e potrebbe essere scritto come , dove è la matrice di dispersione all'interno del gruppo (ovvero la somma di matrici SSCP delle variabili, centrata sul centroide dei rispettivi gruppi); $p$ $B/W$ $trace(\bf{S_b})$ $/trace(\bf{S_w})$ $\bf{S_w}$ $k$ p x p $\bf{S_b}$ è la matrice di dispersione tra i gruppi , dove è la matrice di dispersione per tutti i dati (matrice SSCP delle variabili centrate attorno al grande centroide. (Una "matrice di dispersione" è solo una matrice di covarianza senza devianza) di sample_size-1.) $=\bf{S_t}-\bf{S_w}$ $\bf{S_t}$

Quando c'è una correlazione tra le variabili - e di solito c'è - il sopra è espresso da che non è più uno scalare ma una matrice. Ciò è semplicemente dovuto al fatto che ci sono variabili discriminanti nascoste dietro questa discriminazione "complessiva" e in parte condividendola. $B/W$ $\bf{S_w^{-1} S_b}$ $p$

Ora, si può decidere di immergersi in MANOVA e decomporre in nuovi e mutuamente ortogonali latenti variabili (il loro numero è ) chiamato funzioni discriminanti o discriminanti - il primo è il più forte discriminatore, il secondo dietro, ecc. Proprio come facciamo nell'analisi dei componenti di Pricipal. Sostituiamo le variabili correlate originali con discriminanti non correlati senza perdita di potere discriminatorio. Poiché ogni successivo discriminante è sempre più debole, possiamo accettare un piccolo sottoinsieme del primo $\bf{S_w^{-1} S_b}$ $min(p,k-1)$ $m$ discriminanti senza grande perdita di potere discriminante (di nuovo, simile a come usiamo PCA). Questa è l'essenza di LDA come tecnica di riduzione della dimensionalità (LDA è anche una tecnica di classificazione di Bayes, ma questo è un argomento completamente separato).

LDA ricorda quindi la PCA. PCA decompone la "correlazione", LDA decompone la "separazione". In LDA, poiché la matrice sopra che esprime "separazione" non è simmetrica, viene utilizzato un trucco algebrico di by-pass per trovare i suoi autovalori e autovettori . L'autovalore di ciascuna funzione discriminante (una variabile latente) è il suo potere discriminante stavo parlando nel primo paragrafo. Inoltre, vale la pena ricordare che i discriminanti, sebbene non correlati, non sono geometricamente ortogonali come assi disegnati nello spazio variabile originale. $^1$ $B/W$

Alcuni argomenti potenzialmente correlati che potresti voler leggere:

LDA è MANOVA "approfondito" nell'analisi della struttura latente ed è un caso particolare di analisi di correlazione canonica (esatta equivalenza tra loro in quanto tale ). Come LDA classifica gli oggetti e quali sono i coefficienti di Fisher. (Al momento mi collego solo alle mie risposte, come le ricordo, ma ci sono anche molte risposte buone e migliori di altre persone su questo sito).

calcoli della fase di estrazione LDAsono i seguenti. Gli autovalori ( ) di sono gli stessi della matrice simmetrica , dove è laradicediCholeskydi : una matrice triangolare superiore per cui . Per quanto riguarda gli autovettori di , dove $^1$ $\bf L$ $\bf{S_w^{-1} S_b}$ $\bf{(U^{-1})' S_b U^{-1}}$ $\bf U$ $\bf{S_w}$ $\bf{U'U=S_w}$ , sono dati da $\bf{S_w^{-1} S_b}$ $\bf{V=U^{-1} E}$ sono gli autovettori della matrice sopra . (Nota: , essendo triangolare,può essere invertito- usando un linguaggio di basso livello - più velocemente rispetto all'utilizzo di una funzione "inv" generica standard di pacchetti.) $\bf E$ $\bf{(U^{-1})' S_b U^{-1}}$ $\bf U$

Il metodo descritto-soluzione-eigendecomposition-of- è realizzato in alcuni programmi (in SPSS, ad esempio), mentre in altri programmi è realizzato un metodo "quasi zca-whitening" che, essendo solo un po 'più lento , fornisce gli stessi risultati ed è descritto altrove . Per riassumere qui: ottenere matrice ZCA-sbiancante per - SQ simmetrica radice. (ciò che viene fatto attraverso eigendecomposition); poi eigendecomposition di $\bf{S_w^{-1} S_b}$ $\bf{S_w}$ $\bf S_w^{-1/2}$ (che è una matrice simmetrica) cede autovalori discriminantie autovettori, per cui gli autovettori discriminanti. Il metodo "quasi zca-whitening" può essere riscritto per essere eseguito tramite una decomposizione a valore singolare del set di dati casewise invece di lavorare conle matrici di dispersionee; ciò aggiunge precisione computazionale (cosa importante nella situazione quasi singolare), ma sacrifica la velocità. $\bf S_w^{-1/2} S_b S_w^{-1/2}$ $\bf L$ $\bf A$ $\bf V= S_w^{-1/2} A$ $\bf S_w$ $\bf S_b$

OK, passiamo alle statistiche solitamente calcolate in LDA. Le correlazioni canoniche corrispondenti agli autovalori sono . Mentre l'autovalore di un discriminante èdell'ANOVA di quel discriminante, la correlazione canonica al quadrato è(T = somma totale dei quadrati) di quell'ANOVA. $\bf \Gamma = \sqrt{L/(L+1)}$ $B/W$ $B/T$

$\bf V$

$\bf {C}= \it \sqrt{N-k} ~\bf V$ $\bf XC$ $\bf X$

Termini costanti opzionali che accompagnano i coefficienti non standardizzati e che consentono di non centrare i discriminanti se le variabili di input avevano mezzi diversi da zero sono $\bf {C_0} \it = -\sum^p diag(\bar{X}) \bf C$ , dove $diag(\bar{X})$ è la matrice diagonale dei mezzi delle variabili p e $\sum^p$ è la somma tra le variabili.

Nei coefficienti discriminanti standardizzati , il contributo delle variabili in un discriminante è adeguato al fatto che le variabili hanno varianze diverse e potrebbero essere misurate in unità diverse; $\bf {K} \it = \sqrt{diag \bf (S_w)} \bf V$ (dove diag (Sw) è una matrice diagonale con la diagonale di $\bf S_w$ ). Nonostante siano "standardizzati", questi coefficienti possono occasionalmente superare 1 (quindi non essere confuso). Se le variabili di input erano standardizzate z all'interno di ciascuna classe separatamente, i coefficienti standardizzati = quelli non standardizzati. I coefficienti possono essere usati per interpretare i discriminanti.

Pooled within-group correlations ("structure matrix", sometimes called loadings) between variables and discriminants are given by $\bf R= \it diag \bf (S_w)^{-1} \bf S_w V$ . Correlations are insensitive to collinearity problems and constitute an alternative (to the coefficients) guidance in assessment of variables' contributions, and in interpreting discriminants.

See the complete output of the extraction phase of the discriminant analysis of iris data here.

Read this nice later answer which explains a bit more formally and detailed the same things as I did here.

Questa domanda affronta il problema della standardizzazione dei dati prima di fare LDA.

— ttnphns
fonte

Come detto nella tua risposta, principalmente LDA è usato per ridurre le dimensioni, ma se lo scopo è solo la classificazione, allora possiamo semplicemente usare l'approccio Bayes, giusto? Ma se lo scopo è la riduzione della dimensione, allora dobbiamo adottare l'approccio di Fisher per trovare quelle direzioni su cui proietteremo l'input originale

X

$X$ , giusto?

— avocado,

Yes. However, word "Fisher's approach" is ambiguous. It can mean 2 things: 1) LDA (for 2 classes) itself; 2) Fisher's classification functions in LDA.

— ttnphns