Ecco un breve racconto sull'analisi lineare discriminante (LDA) come risposta alla domanda.
Quando abbiamo una variabile e gruppi (classi) per discriminarla, questo è ANOVA. La potenza discriminazione della variabile è S S tra i gruppi / S S all'interno dei gruppi , o B / W .kSSbetween groups/SSwithin groupsB/W
Quando abbiamo variabili , questo è MANOVA. Se le variabili non sono correlate né nel campione totale né all'interno dei gruppi, il potere di discriminazione sopra riportato, B / N , viene calcolato in modo analogo e potrebbe essere scritto come t r a c e ( S b ) / t r a c e ( S w ) , dove S w è la matrice di dispersione all'interno del gruppo (ovvero la somma di k matrici SSCP delle variabili, centrata sul centroide dei rispettivi gruppi); S bpB/Wtrace(Sb)/trace(Sw)Swk p x p
Sb è la matrice di dispersione tra i gruppi , dove S t è la matrice di dispersione per tutti i dati (matrice SSCP delle variabili centrate attorno al grande centroide. (Una "matrice di dispersione" è solo una matrice di covarianza senza devianza) di sample_size-1.)=St−SwSt
Quando c'è una correlazione tra le variabili - e di solito c'è - il sopra è espresso da S - 1 w S b che non è più uno scalare ma una matrice. Ciò è semplicemente dovuto al fatto che ci sono p variabili discriminanti nascoste dietro questa discriminazione "complessiva" e in parte condividendola.B/WS−1wSbp
Ora, si può decidere di immergersi in MANOVA e decomporre in nuovi e mutuamente ortogonali latenti variabili (il loro numero è m i n ( p , k - 1 ) ) chiamato funzioni discriminanti o discriminanti - il primo è il più forte discriminatore, il secondo dietro, ecc. Proprio come facciamo nell'analisi dei componenti di Pricipal. Sostituiamo le variabili correlate originali con discriminanti non correlati senza perdita di potere discriminatorio. Poiché ogni successivo discriminante è sempre più debole, possiamo accettare un piccolo sottoinsieme del primo mS−1wSbmin(p,k−1)mdiscriminanti senza grande perdita di potere discriminante (di nuovo, simile a come usiamo PCA). Questa è l'essenza di LDA come tecnica di riduzione della dimensionalità (LDA è anche una tecnica di classificazione di Bayes, ma questo è un argomento completamente separato).
LDA ricorda quindi la PCA. PCA decompone la "correlazione", LDA decompone la "separazione". In LDA, poiché la matrice sopra che esprime "separazione" non è simmetrica, viene utilizzato un trucco algebrico di by-pass per trovare i suoi autovalori e autovettori 1 . L'autovalore di ciascuna funzione discriminante (una variabile latente) è il suo potere discriminante B / N di cui stavo parlando nel primo paragrafo. Inoltre, vale la pena ricordare che i discriminanti, sebbene non correlati, non sono geometricamente ortogonali come assi disegnati nello spazio variabile originale.1B/W
Alcuni argomenti potenzialmente correlati che potresti voler leggere:
LDA è MANOVA "approfondito" nell'analisi della struttura latente ed è un caso particolare di analisi di correlazione canonica (esatta equivalenza tra loro in quanto tale ).
Come LDA classifica gli oggetti e quali sono i coefficienti di Fisher. (Al momento mi collego solo alle mie risposte, come le ricordo, ma ci sono anche molte risposte buone e migliori di altre persone su questo sito).
calcoli della fase di estrazione LDAsono i seguenti. Gli autovalori ( L ) di S - 1 w S b sono gli stessi della matrice simmetrica ( U - 1 ) ′ S b U - 1 , dove U è laradicediCholeskydi S w : una matrice triangolare superiore per cui U ′ U = S w . Per quanto riguarda gli autovettori di S - 1 = U - 1 E , dove1 LS−1wSb(U−1)′SbU−1USwU′U=Sw, sono dati daVS−1wSbV=U−1E sono gli autovettori della matrice sopra ( U - 1 ) ′ S b U - 1 . (Nota: U , essendo triangolare,può essere invertito- usando un linguaggio di basso livello - più velocemente rispetto all'utilizzo di una funzione "inv" generica standard di pacchetti.)E(U−1)′SbU−1U
Il metodo descritto-soluzione-eigendecomposition-of- è realizzato in alcuni programmi (in SPSS, ad esempio), mentre in altri programmi è realizzato un metodo "quasi zca-whitening" che, essendo solo un po 'più lento , fornisce gli stessi risultati ed è descritto altrove . Per riassumere qui: ottenere matrice ZCA-sbiancante per S w - SQ simmetrica radice. S - 1 / 2 w (ciò che viene fatto attraverso eigendecomposition); poi eigendecomposition di S - 1 / 2 w S B S - 1 /S−1wSbSwS−1/2w (che è una matrice simmetrica) cede autovalori discriminantiLe autovettoriA, per cui gli autovettori discriminantiV=S - 1 / 2 w A. Il metodo "quasi zca-whitening" può essere riscritto per essere eseguito tramite una decomposizione a valore singolare del set di dati casewise invece di lavorare conle matrici di dispersioneSweSb; ciò aggiunge precisione computazionale (cosa importante nella situazione quasi singolare), ma sacrifica la velocità.S−1/2wSbS−1/2wLAV=S−1/2wASwSb
OK, passiamo alle statistiche solitamente calcolate in LDA. Le correlazioni canoniche corrispondenti agli autovalori sono . Mentre l'autovalore di un discriminante èB/Ndell'ANOVA di quel discriminante, la correlazione canonica al quadrato èB/T(T = somma totale dei quadrati) di quell'ANOVA.Γ=L/(L+1)−−−−−−−−−√B/WB/T
V
C=N−k−−−−−√ VXCX
Termini costanti opzionali che accompagnano i coefficienti non standardizzati e che consentono di non centrare i discriminanti se le variabili di input avevano mezzi diversi da zero sono C0= - ∑pd i a g ( X¯) C, dove dio a g( X¯) è la matrice diagonale dei mezzi delle variabili p e Σp è la somma tra le variabili.
Nei coefficienti discriminanti standardizzati , il contributo delle variabili in un discriminante è adeguato al fatto che le variabili hanno varianze diverse e potrebbero essere misurate in unità diverse;K = d i a g ( Sw)--------√V (dove diag (Sw) è una matrice diagonale con la diagonale di Sw). Nonostante siano "standardizzati", questi coefficienti possono occasionalmente superare 1 (quindi non essere confuso). Se le variabili di input erano standardizzate z all'interno di ciascuna classe separatamente, i coefficienti standardizzati = quelli non standardizzati. I coefficienti possono essere usati per interpretare i discriminanti.
Pooled within-group correlations ("structure matrix", sometimes called loadings) between variables and discriminants are given by R=diag(Sw)−1SwV. Correlations are insensitive to collinearity problems and constitute an alternative (to the coefficients) guidance in assessment of variables' contributions, and in interpreting discriminants.
See the complete output of the extraction phase of the discriminant analysis of iris data here.
Read this nice later answer which explains a bit more formally and detailed the same things as I did here.
Questa domanda affronta il problema della standardizzazione dei dati prima di fare LDA.