Come LDA, una tecnica di classificazione, funge anche da tecnica di riduzione della dimensionalità come la PCA


20

In questo articolo , l'autore collega l'analisi discriminante lineare (LDA) all'analisi dei componenti principali (PCA). Con le mie conoscenze limitate, non sono in grado di seguire come LDA possa essere in qualche modo simile alla PCA.

Ho sempre pensato che la LDA fosse una forma di algoritmo di classificazione, simile alla regressione logistica. Apprezzerò un po 'di aiuto per capire come LDA sia simile alla PCA, ovvero come sia una tecnica di riduzione della dimensionalità.


2
Non è giusto chiamare LDA solo una tecnica di classificazione. È una tecnica composita a 2 stadi: prima riduci la dimensionalità, poi classifica. Come riduzione della dimensionalità, viene monitorato, diversamente dal PCA. Come classificazione, considera la probabilità marginale, a differenza della regressione logistica.
ttnphns,

È più chiaro usare il termine "riduzione della dimensionalità" per trattare solo metodi di apprendimento senza supervisione, ad esempio clustering e analisi di ridondanza. LDA è un apprendimento rigorosamente supervisionato, quindi si creerebbe un pregiudizio eccessivo se fosse utilizzato nella prima fase della riduzione dei dati.
Frank Harrell,

Una domanda molto vecchia molto simile: stats.stackexchange.com/q/22884/3277 .
ttnphns,

1
Frank, varie strategie, ad esempio, di selezione delle funzionalità, possono essere applicate nella prima fase di LDA (incluso l'approccio graduale ripugnante per te :-).
ttnphns,

Risposte:


23

Come ho notato nel commento alla tua domanda, l'analisi discriminante è una procedura composita con due fasi distinte: riduzione della dimensionalità (supervisionato) e fase di classificazione. Alla riduzione della dimensionalità estraiamo funzioni discriminanti che sostituiscono le variabili esplicative originali. Quindi classifichiamo (in genere con l'approccio di Bayes) le osservazioni alle classi usando quelle funzioni.

Alcune persone tendono a non riconoscere questa chiara natura a due stadi della LDA semplicemente perché hanno familiarizzato con la LDA solo con 2 classi (chiamata analisi discriminante di Fisher ). In tale analisi, esiste solo una funzione discriminante e la classificazione è semplice, quindi tutto può essere spiegato in un libro di testo in un unico "passaggio" senza invitare concetti di riduzione dello spazio e classificazione di Bayes.

LDA è strettamente correlato a MANOVA. Quest'ultimo è un lato "superficiale e ampio" del modello lineare (multivariato) mentre l'immagine "profondità e focalizzazione" di esso è l'analisi della correlazione canonica (CCA). Il fatto è che la correlazione tra due insiemi di variabili multivariati non è unidimensionale ed è spiegata da alcune coppie di variabili "latenti" chiamate variate canoniche.

K-1K

In CCA, consideriamo i due insiemi di variabili correlate X e Y come uguali nei diritti. Pertanto estraiamo variate canoniche da entrambi i lati e formano coppie: variabile 1 dall'insieme X e variabile 1 dall'insieme Y con correlazione canonica tra loro massima; quindi variate 2 dall'insieme X e variate 2 dall'insieme Y con una correlazione canonica più piccola, ecc. In LDA, di solito non siamo interessati numericamente alle variate canoniche dal lato dell'insieme di classi; tuttavia ci interessiamo alle variate canoniche dal lato esplicativo impostato. Quelle sono chiamate funzioni discriminanti canoniche o discriminanti .

pKmion(K-1,p)vedi ).

Per ripetere, questo è in realtà CCA nella sua natura. LDA con 3+ classi è anche chiamato "canonico LDA". Nonostante CCA e LDA siano tipicamente implementati in modo algoritmico in qualche modo diverso, in termini di efficienza del programma, sono "uguali" abbastanza da consentire di ricalcolare i risultati (coefficienti ecc.) Ottenuti in una procedura su quelli ottenuti nell'altra. Gran parte della specificità di LDA sta nel dominio della codifica delle variabili categoriali che rappresentano i gruppi. Questo è lo stesso dilemma che si osserva in (M) ANOVA. Diversi schemi di codifica portano a diversi modi di interpretazione dei coefficienti.

Poiché la LDA (come riduzione della dimensionalità) può essere intesa come un caso particolare di CCA, è necessario esplorare questa risposta confrontando CCA con PCA e regressione. Il punto principale è che il CCA è, in un certo senso, più vicino alla regressione che al PCA perché il CCA è una tecnica supervisionata (viene disegnata una combinazione lineare latente per correlare con qualcosa di esterno) e il PCA non lo è (viene disegnata una combinazione lineare latente per riassumere l'interno). Questi sono due rami della riduzione della dimensionalità.

Quando si tratta di matematica, potresti scoprire che mentre le varianze dei componenti principali corrispondono agli autovalori della nuvola di dati (la matrice di covarianza tra le variabili), le varianze dei discriminanti non sono così chiaramente correlate a quegli autovalori che sono prodotti in LDA. Il motivo è che in LDA gli autovalori non riassumono la forma del cloud di dati; piuttosto, riguardano la quantità astratta del rapporto tra la variazione tra classe e all'interno della classe nel cloud.

Pertanto, i componenti principali massimizzano la varianza e i discriminanti massimizzano la separazione delle classi; un semplice caso in cui un PC non riesce a discriminare abbastanza bene tra le classi ma un discriminante può essere queste immagini. Se tracciati come linee nella funzione originale, i discriminanti di spazio di solito non appaiono ortogonali (essendo non correlati, tuttavia), ma i PC lo fanno.


Nota in calce per meticoloso. In che modo, nei loro risultati, LDA è esattamente correlato all'ACC . Per ripetere: se fai LDA con pvariabili e kclassi e fai CCA con Set1 come quelle pvariabili e Set2 come k-1variabili fittizie indicatore che rappresentano gruppi (in realtà, non necessariamente variabili indicatore - altri tipi di variabili di contrasto, come la deviazione o Helmert) lo faranno ), quindi i risultati sono equivalenti per quanto riguarda i variati canonici estratti per Set1: corrispondono direttamente alle funzioni discriminanti estratte nell'ADL. Qual è la relazione esatta, però?

jj

Coefficiente standardizzato CCACoefficiente grezzo LDA=Valore variabile canonico CCAValore discriminante LDA=raggruppati all'interno della varianza di classe nella variabile raggruppati nella varianza di classe nel discriminante

n-11

raggruppati all'interno della varianza di classe nella variabile
st. deviazione del discriminanteσ

La differenza tra CCA e LDA è dovuta al fatto che LDA "sa" che ci sono classi (gruppi): si indicano direttamente i gruppi per calcolare l'interno e tra le matrici scatter. Ciò rende sia i calcoli più veloci sia i risultati più convenienti per la successiva classificazione da parte dei discriminanti. Il CCA, d'altra parte, non è a conoscenza delle classi ed elabora i dati come se fossero tutte variabili continue, il che è un metodo più generale ma più lento di calcolo. Ma i risultati sono equivalenti e ho dimostrato come.

Finora era implicito che i k-1manichini fossero inseriti nel CCA nel modo tipico, cioè centrati (come le variabili di Set1). Ci si potrebbe chiedere, è possibile entrare in tutti i kmanichini e non centrarli (per sfuggire alla singolarità)? Sì, è possibile, anche se probabilmente meno conveniente. Apparirà una variabile canonica aggiuntiva a zero autovalore, i cui coefficienti dovrebbero essere eliminati. Altri risultati rimangono validi. Tranne i df per testare il significato delle correlazioni canoniche. Df per la prima correlazione sarà quello p*kche è sbagliato e il vero df, come in LDA, lo è p*(k-1).

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.