Esiste una relazione tra regressione e analisi discriminante lineare (LDA)? Quali sono le loro somiglianze e differenze? Fa differenza se ci sono due classi o più di due classi?
Esiste una relazione tra regressione e analisi discriminante lineare (LDA)? Quali sono le loro somiglianze e differenze? Fa differenza se ci sono due classi o più di due classi?
Risposte:
Presumo che la domanda riguardi LDA e la regressione lineare (non logistica).
Esiste una relazione considerevole e significativa tra regressione lineare e analisi discriminante lineare . Nel caso in cui la variabile dipendente (DV) sia composta solo da 2 gruppi, le due analisi sono effettivamente identiche. Nonostante che i calcoli siano diversi e i risultati - regressione e coefficienti discriminanti - non siano gli stessi, sono esattamente proporzionati tra loro.
Ora per la situazione di più di due gruppi. Innanzitutto, affermiamo che LDA (la sua estrazione, non lo stadio di classificazione) è equivalente (risultati linearmente correlati) all'analisi di correlazione canonica se si trasforma il DV di raggruppamento in un insieme di variabili fittizie (con una ridondante di esse abbandonate) e si fa canonico analisi con set "IVs" e "dummies". Le varianze canoniche sul lato del set "IV" che ottieni sono quelle che LDA chiama "funzioni discriminanti" o "discriminanti".
Quindi, in che modo l'analisi canonica è correlata alla regressione lineare? L'analisi canonica è essenzialmente una MANOVA (nel senso "regressione lineare multipla multivariata" o "modello lineare generale multivariata") approfondita in struttura latentedelle relazioni tra DV e IV. Queste due variazioni sono scomposte nelle loro interrelazioni in "variate canoniche" latenti. Facciamo l'esempio più semplice, Y vs X1 X2 X3. La massimizzazione della correlazione tra i due lati è la regressione lineare (se si prevede Y per Xs) o - che è la stessa cosa - è MANOVA (se si prevede Xs per Y). La correlazione è unidimensionale (con magnitudine R ^ 2 = traccia di Pillai) perché l'insieme minore, Y, è costituito da una sola variabile. Ora prendiamo questi due set: Y1 Y2 vs X1 x2 x3. La correlazione qui massimizzata è bidimensionale perché l'insieme minore contiene 2 variabili. La prima e più forte dimensione latente della correlazione è chiamata 1a correlazione canonica, e la parte rimanente, ortogonale ad essa, la 2a correlazione canonica. Così, MANOVA (o regressione lineare) chiede semplicemente quali sono i ruoli parziali (i coefficienti) delle variabili nell'intera correlazione bidimensionale degli insiemi; mentre l'analisi canonica scende appena sotto per chiedere quali sono i ruoli parziali delle variabili nella prima dimensione correlazionale e nella seconda.
Pertanto, l'analisi di correlazione canonica è la regressione lineare multivariata approfondita nella struttura latente della relazione tra DV e IV. L'analisi discriminante è un caso particolare di analisi di correlazione canonica ( vedere esattamente come ). Quindi, ecco la risposta sulla relazione tra LDA e regressione lineare in un caso generale di più di due gruppi.
Nota che la mia risposta non vede affatto la LDA come tecnica di classificazione. Stavo discutendo di LDA solo come tecnica di estrazione dei latenti. La classificazione è la seconda fase autonoma di LDA (l'ho descritta qui ). @Michael Chernick si stava concentrando su questo nelle sue risposte.
regression formulation of LDA
qualcosa di sorprendentemente difficile trovare qualcosa - ci sono più articoli di ricerca pubblicati dopo il 2000 che affermano che tale formulazione non esiste o cercando di suggerirne uno. C'è forse un buon [vecchio] riferimento?
Harry Clahn. Canonical Correlation and Its Relationship to Discriminant Analysis and Multiple Regression
. W. Stuetzle. Connections between Canonical Correlation Analysis, Linear Discriminant Analysis, and Optimal Scaling
. Olcay Kursun et al. Canonical correlation analysis using within-class coupling
. Se non riesci a trovarli su Internet, posso inviarti. Se trovi più e migliori fonti, ti preghiamo di farcelo sapere.
Ecco un riferimento a uno degli articoli di Efron: L'efficienza della regressione logistica rispetto alla normale analisi discriminante , 1975.
Un altro documento pertinente è Ng & Jordan, 2001, sui classificatori discriminatori e generativi: un confronto tra regressione logistica e Bayes ingenui . Ed ecco un riassunto di un commento su di esso di Xue & Titterington , 2008, che menziona i lavori di O'Neill relativi alla sua tesi di dottorato:
Il confronto tra classificatori generativi e discriminatori è un argomento permanente. Come contributo importante a questo argomento, basato sui loro confronti teorici ed empirici tra l'ingenuo classificatore di Bayes e la regressione logistica lineare, Ng e Jordan (NIPS 841 --- 848, 2001) hanno affermato che esistono due regimi distinti di prestazione tra il generativo e classificatori discriminatori per quanto riguarda le dimensioni del set di allenamento. In questo documento, i nostri studi empirici e di simulazione, come complemento del loro lavoro, suggeriscono tuttavia che l'esistenza di due regimi distinti potrebbe non essere così affidabile. Inoltre, per i set di dati del mondo reale, finora non esiste un criterio generale teoricamente corretto per la scelta tra gli approcci discriminatori e generativi alla classificazione di un'osservazione in una classe ; la scelta dipende dalla relativa fiducia che abbiamo nella correttezza delle specifiche di o per i dati. Questo può essere in una certa misura una dimostrazione del perché Efron (J Am Stat Assoc 70 (352): 892 --- 898, 1975) e O'Neill (J Am Stat Assoc 75 (369): 154 --- 160, 1980 ) preferisce l'analisi discriminante lineare (LDA) su base normale quando non si verificano errate specifiche del modello, ma altri studi empirici potrebbero preferire la regressione logistica lineare. Inoltre, suggeriamo che l'accoppiamento di LDA assumendo una matrice di covarianza diagonale comune (LDA) o il classificatore Bayes ingenuo e la regressione logistica lineare potrebbe non essere perfetto, e quindi potrebbe non essere affidabile per qualsiasi affermazione derivata dal confronto tra LDA o l'ingenuo classificatore di Bayes e la regressione logistica lineare da generalizzare a tutti i classificatori generativi e discriminatori.
Ci sono molti altri riferimenti su questo che puoi trovare online.
Lo scopo di questa risposta è spiegare l'esatta relazione matematica tra analisi discriminante lineare (LDA) e regressione lineare multivariata (MLR). Si scoprirà che il quadro corretto è fornito dalla regressione di rango ridotto (RRR).
Mostreremo che LDA è equivalente a RRR della matrice dell'indicatore di classe sbiancata sulla matrice di dati.
Sia la matrice n × d con i punti dati x i nelle righe e le variabili nelle colonne. Ogni punto appartiene a una delle classi o gruppi k . Il punto x i appartiene al numero di classe g ( i ) .
Sia la matrice dell'indicatore n × k che codifica l'appartenenza al gruppo come segue: G i j = 1 se x i appartiene alla classe j , e G i j = 0 altrimenti. Ci sono n j punti dati nella classe j ; ovviamente ∑ n j = n .
Partiamo dal presupposto che i dati sono centrati e quindi la media globale è uguale a zero, . Sia μ j la media della classe j .
La matrice di dispersione totale può essere scomposta nella somma delle matrici di dispersione tra classe e all'interno di classe definite come segue: C b Si può verificare cheC=Cb+Cw. LDA cerca gli assi discriminanti che hanno la varianza massima tra i gruppi e la varianza minima all'interno dei gruppi della proiezione. In particolare, il primo asse discriminante è il vettore unitariow chemassimizzaw⊤Cbw/(w⊤C
Supponendo che sia al livello massimo, la soluzione LDA W L D A è la matrice degli autovettori di C - 1 w C b (ordinati per autovalori in ordine decrescente).
Questa era la solita storia. Ora facciamo due importanti osservazioni.
In primo luogo, la matrice di dispersione all'interno della classe può essere sostituita dalla matrice di dispersione totale (in definitiva perché massimizzare equivale a massimizzare b / ( b + w ) ), e infatti, è facile vedere che C - 1 C b ha gli stessi autovettori.
In secondo luogo, la matrice di dispersione tra classi può essere espressa tramite la matrice di appartenenza al gruppo definita sopra. In effetti, è la matrice delle somme di gruppo. Per ottenere la matrice dei mezzi di gruppo, dovrebbe essere moltiplicata per una matrice diagonale con n j sulla diagonale; è dato da G ⊤ G . Quindi, la matrice dei mezzi di gruppo è ( G ⊤ G ) - 1 G ⊤ X ( sapienti noterà che è una formula di regressione). Per ottenere C b dobbiamo prendere la sua matrice di dispersione, ponderata dalla stessa matrice diagonale, ottenendo C b Se tutti n j sono identici e uguali a m ("set di dati bilanciato"), questa espressione si semplifica in X ⊤ G G ⊤ X / m .
Possiamo definire la matrice dell'indicatore normalizzata con 1 / √ doveGha1. Poi per entrambe le serie di dati, bilanciato e sbilanciato, l'espressione è semplicementeCb=X⊤ ~ G ~ G ⊤X. Notare che ~ G è, fino ad un fattore costante, ilsbiancatoindicatore matrice: ~ G =G(G⊤G)-1 / 2.
Per semplicità, inizieremo con il caso di un set di dati bilanciato.
Consideriamo la regressione lineare di su X . Trova B minimizzando ‖ G - X B ‖ 2 . La regressione di rango ridotto fa lo stesso con il vincolo che B dovrebbe appartenere al rango dato p . In tal caso, allora B può essere scritto come B = D F ⊤ con entrambe le colonne D e F con p . Si può dimostrare che la soluzione di rango due può essere ottenuta dalla soluzione di rango mantenendo la prima colonna e aggiungendo una colonna aggiuntiva, ecc.
This finishes the proof. For unbalanced datasets we need to replace with .
One can similarly show that adding ridge regularization to the reduced rank regression is equivalent to the regularized LDA.
In his answer, @ttnphns made a connection to canonical correlation analysis (CCA). Indeed, LDA can be shown to be equivalent to CCA between and . In addition, CCA between any and can be written as RRR predicting whitened from . The rest follows from this.
It is hard to say who deserves the credit for what is presented above.
There is a recent conference paper by Cai et al. (2013) On The Equivalent of Low-Rank Regressions and Linear Discriminant Analysis Based Regressions that presents exactly the same proof as above but creates the impression that they invented this approach. This is definitely not the case. Torre wrote a detailed treatment of how most of the common linear multivariate methods can be seen as reduced rank regression, see A Least-Squares Framework for Component Analysis, 2009, and a later book chapter A unification of component analysis methods, 2013; he presents the same argument but does not give any references either. This material is also covered in the textbook Modern Multivariate Statistical Techniques (2008) by Izenman, who introduced RRR back in 1975.
The relationship between LDA and CCA apparently goes back to Bartlett, 1938, Further aspects of the theory of multiple regression -- that's the reference I often encounter (but did not verify). The relationship between CCA and RRR is described in the Izenman, 1975, Reduced-rank regression for the multivariate linear model. So all of these ideas have been around for a while.
Linear regression and linear discriminant analysis are very different. Linear regression relates a dependent variable to a set of independent predictor variables. The idea is to find a function linear in the parameters that best fits the data. It does not even have to be linear in the covariates. Linear discriminant analysis on the other hand is a procedure for classifying objects into categories. For the two-class problem it seeks to find the best separating hyperplane for dividing the groups into two catgories. Here best means that it minimizes a loss function that is a linear combination of the error rates. For three or more groups it finds the best set of hyperplanes (k-1 for the k class problem). In discriminant analysis the hypoerplanes are linear in the feature variables.
The main similarity between the two is term linear in the titles.