Qual è la relazione tra regressione e analisi discriminante lineare (LDA)?

24

Esiste una relazione tra regressione e analisi discriminante lineare (LDA)? Quali sono le loro somiglianze e differenze? Fa differenza se ci sono due classi o più di due classi?

— zca0
fonte

3

Una nota per il lettore: la domanda è ambigua, può essere intesa come una domanda sulla regressione logistica o sulla regressione lineare . L'OP sembra essere stato interessato a entrambi gli aspetti (vedi commenti). La risposta accettata riguarda la regressione lineare, ma alcune altre risposte si concentrano invece sulla regressione logistica.

— ameba dice di reintegrare Monica il

20

Presumo che la domanda riguardi LDA e la regressione lineare (non logistica).

Esiste una relazione considerevole e significativa tra regressione lineare e analisi discriminante lineare . Nel caso in cui la variabile dipendente (DV) sia composta solo da 2 gruppi, le due analisi sono effettivamente identiche. Nonostante che i calcoli siano diversi e i risultati - regressione e coefficienti discriminanti - non siano gli stessi, sono esattamente proporzionati tra loro.

Ora per la situazione di più di due gruppi. Innanzitutto, affermiamo che LDA (la sua estrazione, non lo stadio di classificazione) è equivalente (risultati linearmente correlati) all'analisi di correlazione canonica se si trasforma il DV di raggruppamento in un insieme di variabili fittizie (con una ridondante di esse abbandonate) e si fa canonico analisi con set "IVs" e "dummies". Le varianze canoniche sul lato del set "IV" che ottieni sono quelle che LDA chiama "funzioni discriminanti" o "discriminanti".

Quindi, in che modo l'analisi canonica è correlata alla regressione lineare? L'analisi canonica è essenzialmente una MANOVA (nel senso "regressione lineare multipla multivariata" o "modello lineare generale multivariata") approfondita in struttura latentedelle relazioni tra DV e IV. Queste due variazioni sono scomposte nelle loro interrelazioni in "variate canoniche" latenti. Facciamo l'esempio più semplice, Y vs X1 X2 X3. La massimizzazione della correlazione tra i due lati è la regressione lineare (se si prevede Y per Xs) o - che è la stessa cosa - è MANOVA (se si prevede Xs per Y). La correlazione è unidimensionale (con magnitudine R ^ 2 = traccia di Pillai) perché l'insieme minore, Y, è costituito da una sola variabile. Ora prendiamo questi due set: Y1 Y2 vs X1 x2 x3. La correlazione qui massimizzata è bidimensionale perché l'insieme minore contiene 2 variabili. La prima e più forte dimensione latente della correlazione è chiamata 1a correlazione canonica, e la parte rimanente, ortogonale ad essa, la 2a correlazione canonica. Così, MANOVA (o regressione lineare) chiede semplicemente quali sono i ruoli parziali (i coefficienti) delle variabili nell'intera correlazione bidimensionale degli insiemi; mentre l'analisi canonica scende appena sotto per chiedere quali sono i ruoli parziali delle variabili nella prima dimensione correlazionale e nella seconda.

Pertanto, l'analisi di correlazione canonica è la regressione lineare multivariata approfondita nella struttura latente della relazione tra DV e IV. L'analisi discriminante è un caso particolare di analisi di correlazione canonica ( vedere esattamente come ). Quindi, ecco la risposta sulla relazione tra LDA e regressione lineare in un caso generale di più di due gruppi.

Nota che la mia risposta non vede affatto la LDA come tecnica di classificazione. Stavo discutendo di LDA solo come tecnica di estrazione dei latenti. La classificazione è la seconda fase autonoma di LDA (l'ho descritta qui ). @Michael Chernick si stava concentrando su questo nelle sue risposte.

— ttnphns
fonte

Perché ho bisogno di "analisi di correlazione canonica" e cosa fa qui? Grazie.

— zca0,

1

+1 (molto tempo fa). Conoscete qualche riferimento che discute (in qualche dettaglio) questa connessione tra MANOVA / CCA / regressione tra X e la matrice dei manichini di gruppo Y e LDA (per il caso generale di più di due gruppi)? Ora sto studiando questo argomento, e penso di averlo già più o meno capito, ma quando cerco regression formulation of LDAqualcosa di sorprendentemente difficile trovare qualcosa - ci sono più articoli di ricerca pubblicati dopo il 2000 che affermano che tale formulazione non esiste o cercando di suggerirne uno. C'è forse un buon [vecchio] riferimento?

— ameba dice di reintegrare Monica il

3

Mmm .. Solo un paio di documenti che vengono alla mente rapidamente: Harry Clahn. Canonical Correlation and Its Relationship to Discriminant Analysis and Multiple Regression. W. Stuetzle. Connections between Canonical Correlation Analysis, Linear Discriminant Analysis, and Optimal Scaling. Olcay Kursun et al. Canonical correlation analysis using within-class coupling. Se non riesci a trovarli su Internet, posso inviarti. Se trovi più e migliori fonti, ti preghiamo di farcelo sapere.

— ttnphns,

1

Il mio passaggio non implicava affatto che si possano ottenere coefficienti CCA avendo solo i risultati della regressione (il MANOVA) a portata di mano. Stavo dicendo che MANOVA è "superficie" e CCA è strati più "profondi" della stessa impresa analitica. Non ho detto che sono sinonimi o che uno è un chiaro caso specifico dell'altro.

— ttnphns,

1

Vedo. Ho deciso di pubblicare un'altra risposta qui, fornendo i dettagli matematici dell'equivalenza LDA / regressione.

— ameba dice Reinstate Monica,

11

Ecco un riferimento a uno degli articoli di Efron: L'efficienza della regressione logistica rispetto alla normale analisi discriminante , 1975.

Un altro documento pertinente è Ng & Jordan, 2001, sui classificatori discriminatori e generativi: un confronto tra regressione logistica e Bayes ingenui . Ed ecco un riassunto di un commento su di esso di Xue & Titterington , 2008, che menziona i lavori di O'Neill relativi alla sua tesi di dottorato:

Il confronto tra classificatori generativi e discriminatori è un argomento permanente. Come contributo importante a questo argomento, basato sui loro confronti teorici ed empirici tra l'ingenuo classificatore di Bayes e la regressione logistica lineare, Ng e Jordan (NIPS 841 --- 848, 2001) hanno affermato che esistono due regimi distinti di prestazione tra il generativo e classificatori discriminatori per quanto riguarda le dimensioni del set di allenamento. In questo documento, i nostri studi empirici e di simulazione, come complemento del loro lavoro, suggeriscono tuttavia che l'esistenza di due regimi distinti potrebbe non essere così affidabile. Inoltre, per i set di dati del mondo reale, finora non esiste un criterio generale teoricamente corretto per la scelta tra gli approcci discriminatori e generativi alla classificazione di un'osservazione $x$ in una classe $y$ ; la scelta dipende dalla relativa fiducia che abbiamo nella correttezza delle specifiche di $p(y|x)$ o $p(x, y)$ per i dati. Questo può essere in una certa misura una dimostrazione del perché Efron (J Am Stat Assoc 70 (352): 892 --- 898, 1975) e O'Neill (J Am Stat Assoc 75 (369): 154 --- 160, 1980 ) preferisce l'analisi discriminante lineare (LDA) su base normale quando non si verificano errate specifiche del modello, ma altri studi empirici potrebbero preferire la regressione logistica lineare. Inoltre, suggeriamo che l'accoppiamento di LDA assumendo una matrice di covarianza diagonale comune (LDA) o il classificatore Bayes ingenuo e la regressione logistica lineare potrebbe non essere perfetto, e quindi potrebbe non essere affidabile per qualsiasi affermazione derivata dal confronto tra LDA o l'ingenuo classificatore di Bayes e la regressione logistica lineare da generalizzare a tutti i classificatori generativi e discriminatori.

Ci sono molti altri riferimenti su questo che puoi trovare online.

— Michael R. Chernick
fonte

+1 per i molti riferimenti ben posizionati sull'argomento (ora chiarito dal PO) di regressione logistica contro LDA.

— Macro

1

Ecco un altro confronto tra classificatori generativi e discriminatori di Yaroslav Bulatov su Quora: quora.com/…

— Pardis

Anche un argomento correlato, stats.stackexchange.com/q/95247/3277

— ttnphns

7

Lo scopo di questa risposta è spiegare l'esatta relazione matematica tra analisi discriminante lineare (LDA) e regressione lineare multivariata (MLR). Si scoprirà che il quadro corretto è fornito dalla regressione di rango ridotto (RRR).

Mostreremo che LDA è equivalente a RRR della matrice dell'indicatore di classe sbiancata sulla matrice di dati.

Notazione

Sia la matrice con i punti dati nelle righe e le variabili nelle colonne. Ogni punto appartiene a una delle classi o gruppi . Il punto appartiene al numero di classe . $\newcommand{\X}{\mathbf X}\X$ $n\times d$ $\newcommand{\x}{\mathbf x}\x_i$ $k$ $\x_i$ $g(i)$

Sia la matrice dell'indicatore che codifica l'appartenenza al gruppo come segue: se appartiene alla classe , e altrimenti. Ci sono punti dati nella classe ; ovviamente . $\newcommand{\G}{\mathbf G}\G$ $n \times k$ $G_{ij}=1$ $\x_i$ $j$ $G_{ij}=0$ $n_j$ $j$ $\sum n_j = n$

Partiamo dal presupposto che i dati sono centrati e quindi la media globale è uguale a zero, . Sia la media della classe . $\newcommand{\bmu}{\boldsymbol \mu}\bmu=0$ $\bmu_j$ $j$

LDA

La matrice di dispersione totale può essere scomposta nella somma delle matrici di dispersione tra classe e all'interno di classe definite come segue: $\newcommand{\C}{\mathbf C}\C=\X^\top \X$ Si può verificare che. LDA cerca gli assi discriminanti che hanno la varianza massima tra i gruppi e la varianza minima all'interno dei gruppi della proiezione. In particolare, il primo asse discriminante è il vettore unitariomassimizza

\begin{aligned} C_{b} & = \sum_{j} n_{j} μ_{j} μ_{j}^{⊤} \\ C_{w} & = \sum (x_{i} - μ_{g (i)}) (x_{i} - μ_{g (i)})^{⊤} . \end{aligned}

$\begin{align} \C_b &= \sum_j n_j \bmu_j \bmu_j^\top \\ \C_w &= \sum(\x_i - \bmu_{g(i)})(\x_i - \bmu_{g(i)})^\top. \end{align}$

C = C_{b} + C_{w}

$\C = \C_b + \C_w$

w

$\newcommand{\w}{\mathbf w}\w$

, e i primi

discriminanti accatastati insieme in una matrice

dovrebbero massimizzare la traccia

w^{⊤} C_{b} w / (w^{⊤} C_{w} w)

$\w^\top \C_b \w / (\w^\top \C_w \w)$

p

$p$

W

$\newcommand{\W}{\mathbf W}\W$

L_{L D A} = tr (W^{⊤} C_{b} W (W^{⊤} C_{w} W)^{- 1}) .

$\DeclareMathOperator{\tr}{tr} L_\mathrm{LDA}=\tr\left(\W^\top \C_b \W (\W^\top \C_w \W)^{-1}\right).$

Supponendo che sia al livello massimo, la soluzione LDA è la matrice degli autovettori di (ordinati per autovalori in ordine decrescente). $\C_w$ $\W_\mathrm{LDA}$ $\C_w^{-1} \C_b$

Questa era la solita storia. Ora facciamo due importanti osservazioni.

In primo luogo, la matrice di dispersione all'interno della classe può essere sostituita dalla matrice di dispersione totale (in definitiva perché massimizzare equivale a massimizzare ), e infatti, è facile vedere che ha gli stessi autovettori. $b/w$ $b/(b+w)$ $\C^{-1} \C_b$

In secondo luogo, la matrice di dispersione tra classi può essere espressa tramite la matrice di appartenenza al gruppo definita sopra. In effetti, è la matrice delle somme di gruppo. Per ottenere la matrice dei mezzi di gruppo, dovrebbe essere moltiplicata per una matrice diagonale con sulla diagonale; è dato da . Quindi, la matrice dei mezzi di gruppo è ( sapienti noterà che è una formula di regressione). Per ottenere dobbiamo prendere la sua matrice di dispersione, ponderata dalla stessa matrice diagonale, ottenendo $\G^\top \X$ $n_j$ $\G^\top \G$ $(\G^\top \G)^{-1}\G^\top \X$ $\C_b$ Se tutti sono identici e uguali a ("set di dati bilanciato"), questa espressione si semplifica in .

C_{b} = X^{⊤} G (G^{⊤} G)^{- 1} G^{⊤} X .

$\C_b = \X^\top \G (\G^\top \G)^{-1}\G^\top \X.$

n_{j}

$n_j$

m

$m$

X^{⊤} G G^{⊤} X / m

$\X^\top \G \G^\top \X / m$

Possiamo definire la matrice dell'indicatore normalizzata con $\newcommand{\tG}{\widetilde {\mathbf G}}\tG$ doveha. Poi per entrambe le serie di dati, bilanciato e sbilanciato, l'espressione è semplicemente. Notare che è, fino ad un fattore costante, ilsbiancatoindicatore matrice:. $1/\sqrt{n_j}$ $\G$ $1$ $\C_b = \X^\top \tG \tG^\top \X$ $\tG$ $\tG = \G(\G^\top \G)^{-1/2}$

Regressione

Per semplicità, inizieremo con il caso di un set di dati bilanciato.

Consideriamo la regressione lineare di su . Trova minimizzando . La regressione di rango ridotto fa lo stesso con il vincolo che dovrebbe appartenere al rango dato . In tal caso, allora può essere scritto come con entrambe le colonne e con . Si può dimostrare che la soluzione di rango due può essere ottenuta dalla soluzione di rango mantenendo la prima colonna e aggiungendo una colonna aggiuntiva, ecc. $\G$ $\X$ $\newcommand{\B}{\mathbf B}\B$ $\| \G - \X \B\|^2$ $\B$ $p$ $\B$ $\newcommand{\D}{\mathbf D} \newcommand{\F}{\mathbf F} \B=\D\F^\top$ $\D$ $\F$ $p$

$\D$ $\W_\mathrm{LDA}$

$\D$ $\F$ $\F^\top = (\D^\top \X^\top \X \D)^{-1} \D^\top \X^\top \G$

‖ G - X D (D^{⊤} X^{⊤} X D)^{- 1} D^{⊤} X^{⊤} G ‖^{2},

$\| \G - \X \D (\D^\top \X^\top \X \D)^{-1} \D^\top \X^\top \G\|^2,$

‖ A ‖^{2} = t r (A A^{⊤})

$\|\mathbf A\|^2=\mathrm{tr}(\mathbf A \mathbf A^\top)$

tr (D^{⊤} X^{⊤} G G^{⊤} X D (D^{⊤} X^{⊤} X D)^{- 1}),

$\tr\left(\D^\top \X^\top \G \G^\top \X \D (\D^\top \X^\top \X \D)^{-1}\right),$

\dots = tr (D^{⊤} C_{b} D (D^{⊤} C D)^{- 1}) / m \sim L_{L D A} .

$\ldots = \tr\left(\D^\top \C_b \D (\D^\top \C \D)^{-1}\right)/m \sim L_\mathrm{LDA}.$

This finishes the proof. For unbalanced datasets we need to replace $\G$ with $\tG$ .

One can similarly show that adding ridge regularization to the reduced rank regression is equivalent to the regularized LDA.

Relationship between LDA, CCA, and RRR

In his answer, @ttnphns made a connection to canonical correlation analysis (CCA). Indeed, LDA can be shown to be equivalent to CCA between $\X$ and $\G$ . In addition, CCA between any $\newcommand{\Y}{\mathbf Y}\Y$ and $\X$ can be written as RRR predicting whitened $\Y$ from $\X$ . The rest follows from this.

Bibliography

It is hard to say who deserves the credit for what is presented above.

There is a recent conference paper by Cai et al. (2013) On The Equivalent of Low-Rank Regressions and Linear Discriminant Analysis Based Regressions that presents exactly the same proof as above but creates the impression that they invented this approach. This is definitely not the case. Torre wrote a detailed treatment of how most of the common linear multivariate methods can be seen as reduced rank regression, see A Least-Squares Framework for Component Analysis, 2009, and a later book chapter A unification of component analysis methods, 2013; he presents the same argument but does not give any references either. This material is also covered in the textbook Modern Multivariate Statistical Techniques (2008) by Izenman, who introduced RRR back in 1975.

The relationship between LDA and CCA apparently goes back to Bartlett, 1938, Further aspects of the theory of multiple regression -- that's the reference I often encounter (but did not verify). The relationship between CCA and RRR is described in the Izenman, 1975, Reduced-rank regression for the multivariate linear model. So all of these ideas have been around for a while.

— amoeba says Reinstate Monica
fonte

+1 from me for the particulars and for referring to my answer and for introducing the RRR here (upvoting in advance because it will pass some unknown time before I sit down to tear through all that magnificent/formidable algebra!).

— ttnphns

0

Linear regression and linear discriminant analysis are very different. Linear regression relates a dependent variable to a set of independent predictor variables. The idea is to find a function linear in the parameters that best fits the data. It does not even have to be linear in the covariates. Linear discriminant analysis on the other hand is a procedure for classifying objects into categories. For the two-class problem it seeks to find the best separating hyperplane for dividing the groups into two catgories. Here best means that it minimizes a loss function that is a linear combination of the error rates. For three or more groups it finds the best set of hyperplanes (k-1 for the k class problem). In discriminant analysis the hypoerplanes are linear in the feature variables.

The main similarity between the two is term linear in the titles.

— Michael R. Chernick
fonte

Sorry, I wrote wrong. Should be regression and LDA. I saw some articles about linear discriminants via regression, but I don't know how it works. I think LDA and logistic regression for two classes have some relations but cannot tell very clearly what they are. And for more than two classes, I don't know if there are any relations.

— zca0

1

Yes there is a relationship between logistic regression and linear discriminant analysis. Efron and his student Terry O'Neilll wrote about this in the late 1970s. I will try to find a link to a reference.

— Michael R. Chernick

2

Here is a related question and answers on CV. stats.stackexchange.com/questions/14697/…

— Michael R. Chernick

-1 because actually there is a deep relation between LDA and regression, as both @ttnphns and myself explain in our answers.

— amoeba says Reinstate Monica