Come ho notato nel commento alla tua domanda, l'analisi discriminante è una procedura composita con due fasi distinte: riduzione della dimensionalità (supervisionato) e fase di classificazione. Alla riduzione della dimensionalità estraiamo funzioni discriminanti che sostituiscono le variabili esplicative originali. Quindi classifichiamo (in genere con l'approccio di Bayes) le osservazioni alle classi usando quelle funzioni.
Alcune persone tendono a non riconoscere questa chiara natura a due stadi della LDA semplicemente perché hanno familiarizzato con la LDA solo con 2 classi (chiamata analisi discriminante di Fisher ). In tale analisi, esiste solo una funzione discriminante e la classificazione è semplice, quindi tutto può essere spiegato in un libro di testo in un unico "passaggio" senza invitare concetti di riduzione dello spazio e classificazione di Bayes.
LDA è strettamente correlato a MANOVA. Quest'ultimo è un lato "superficiale e ampio" del modello lineare (multivariato) mentre l'immagine "profondità e focalizzazione" di esso è l'analisi della correlazione canonica (CCA). Il fatto è che la correlazione tra due insiemi di variabili multivariati non è unidimensionale ed è spiegata da alcune coppie di variabili "latenti" chiamate variate canoniche.
k - 1K
In CCA, consideriamo i due insiemi di variabili correlate X e Y come uguali nei diritti. Pertanto estraiamo variate canoniche da entrambi i lati e formano coppie: variabile 1 dall'insieme X e variabile 1 dall'insieme Y con correlazione canonica tra loro massima; quindi variate 2 dall'insieme X e variate 2 dall'insieme Y con una correlazione canonica più piccola, ecc. In LDA, di solito non siamo interessati numericamente alle variate canoniche dal lato dell'insieme di classi; tuttavia ci interessiamo alle variate canoniche dal lato esplicativo impostato. Quelle sono chiamate funzioni discriminanti canoniche o discriminanti .
pKm i n ( k - 1 , p )vedi ).
Per ripetere, questo è in realtà CCA nella sua natura. LDA con 3+ classi è anche chiamato "canonico LDA". Nonostante CCA e LDA siano tipicamente implementati in modo algoritmico in qualche modo diverso, in termini di efficienza del programma, sono "uguali" abbastanza da consentire di ricalcolare i risultati (coefficienti ecc.) Ottenuti in una procedura su quelli ottenuti nell'altra. Gran parte della specificità di LDA sta nel dominio della codifica delle variabili categoriali che rappresentano i gruppi. Questo è lo stesso dilemma che si osserva in (M) ANOVA. Diversi schemi di codifica portano a diversi modi di interpretazione dei coefficienti.
Poiché la LDA (come riduzione della dimensionalità) può essere intesa come un caso particolare di CCA, è necessario esplorare questa risposta confrontando CCA con PCA e regressione. Il punto principale è che il CCA è, in un certo senso, più vicino alla regressione che al PCA perché il CCA è una tecnica supervisionata (viene disegnata una combinazione lineare latente per correlare con qualcosa di esterno) e il PCA non lo è (viene disegnata una combinazione lineare latente per riassumere l'interno). Questi sono due rami della riduzione della dimensionalità.
Quando si tratta di matematica, potresti scoprire che mentre le varianze dei componenti principali corrispondono agli autovalori della nuvola di dati (la matrice di covarianza tra le variabili), le varianze dei discriminanti non sono così chiaramente correlate a quegli autovalori che sono prodotti in LDA. Il motivo è che in LDA gli autovalori non riassumono la forma del cloud di dati; piuttosto, riguardano la quantità astratta del rapporto tra la variazione tra classe e all'interno della classe nel cloud.
Pertanto, i componenti principali massimizzano la varianza e i discriminanti massimizzano la separazione delle classi; un semplice caso in cui un PC non riesce a discriminare abbastanza bene tra le classi ma un discriminante può essere queste immagini. Se tracciati come linee nella funzione originale, i discriminanti di spazio di solito non appaiono ortogonali (essendo non correlati, tuttavia), ma i PC lo fanno.
Nota in calce per meticoloso. In che modo, nei loro risultati, LDA è esattamente correlato all'ACC . Per ripetere: se fai LDA con p
variabili e k
classi e fai CCA con Set1 come quelle p
variabili e Set2 come k-1
variabili fittizie indicatore che rappresentano gruppi (in realtà, non necessariamente variabili indicatore - altri tipi di variabili di contrasto, come la deviazione o Helmert) lo faranno ), quindi i risultati sono equivalenti per quanto riguarda i variati canonici estratti per Set1: corrispondono direttamente alle funzioni discriminanti estratte nell'ADL. Qual è la relazione esatta, però?
jj
Coefficiente standardizzato CCACoefficiente grezzo LDA= Valore variabile canonico CCAValore discriminante LDA= raggruppato all'interno della varianza di classe nella variabile raggruppati nella varianza di classe nel discriminante---------------------------√
n-1
1
raggruppati all'interno della varianza di classe nella variabile---------------------------------√
st. deviazione del discriminanteσ
La differenza tra CCA e LDA è dovuta al fatto che LDA "sa" che ci sono classi (gruppi): si indicano direttamente i gruppi per calcolare l'interno e tra le matrici scatter. Ciò rende sia i calcoli più veloci sia i risultati più convenienti per la successiva classificazione da parte dei discriminanti. Il CCA, d'altra parte, non è a conoscenza delle classi ed elabora i dati come se fossero tutte variabili continue, il che è un metodo più generale ma più lento di calcolo. Ma i risultati sono equivalenti e ho dimostrato come.
Finora era implicito che i k-1
manichini fossero inseriti nel CCA nel modo tipico, cioè centrati (come le variabili di Set1). Ci si potrebbe chiedere, è possibile entrare in tutti i k
manichini e non centrarli (per sfuggire alla singolarità)? Sì, è possibile, anche se probabilmente meno conveniente. Apparirà una variabile canonica aggiuntiva a zero autovalore, i cui coefficienti dovrebbero essere eliminati. Altri risultati rimangono validi. Tranne i df per testare il significato delle correlazioni canoniche. Df per la prima correlazione sarà quello p*k
che è sbagliato e il vero df, come in LDA, lo è p*(k-1)
.