Qual è la connessione tra minimi quadrati parziali, regressione di rango ridotto e regressione della componente principale?

La regressione di rango ridotto e la regressione della componente principale sono solo casi speciali di minimi quadrati parziali?

Questo tutorial (Pagina 6, "Confronto di obiettivi") afferma che quando eseguiamo i minimi quadrati parziali senza proiettare X o Y (cioè "non parziale"), diventa di conseguenza una regressione di rango ridotta o regressione del componente principale.

Un'affermazione simile viene fatta in questa pagina della documentazione SAS , sezioni "Regressione ridotta del rango" e "Rapporti tra metodi".

Una domanda di seguito più fondamentale è se hanno modelli probabilistici sottostanti simili.

— Minkov
fonte

Questo è davvero un problema importante.

— Steve,

@Steve. Grazie. Vedi i miei commenti sopra per un'introduzione più dettagliata.

— Minkov,

Questi sono tre metodi diversi e nessuno di essi può essere visto come un caso speciale di un altro.

Formalmente, se e sono set di dati predittore centrato ( ) e risposta ( ) e se cerchiamo la prima coppia di assi, per e $\mathbf X$ $\mathbf Y$ $n \times p$ $n\times q$ $\mathbf w \in \mathbb R^p$ $\mathbf X$ $\mathbf v \in \mathbb R^q$ per , allora questi metodi massimizzare le seguenti quantità: $\mathbf Y$

\begin{aligned} P C A : & Var (X w) \\ R R R : & {Corr}^{2} (X w, Y v) \cdot Var (Y v) \\ P L S : & Var (X w) \cdot {Corr}^{2} (X w, Y v) \cdot Var (Y v) = {Cov}^{2} (X w, Y v) \\ C C A : & {Corr}^{2} (X w, Y v) \end{aligned}

$\begin{align} \mathrm{PCA:}&\quad \operatorname{Var}(\mathbf{Xw}) \\ \mathrm{RRR:}&\quad \phantom{\operatorname{Var}(\mathbf {Xw})\cdot{}}\operatorname{Corr}^2(\mathbf{Xw},\mathbf {Yv})\cdot\operatorname{Var}(\mathbf{Yv}) \\ \mathrm{PLS:}&\quad \operatorname{Var}(\mathbf{Xw})\cdot\operatorname{Corr}^2(\mathbf{Xw},\mathbf {Yv})\cdot\operatorname{Var}(\mathbf {Yv}) = \operatorname{Cov}^2(\mathbf{Xw},\mathbf {Yv})\\ \mathrm{CCA:}&\quad \phantom{\operatorname{Var}(\mathbf {Xw})\cdot {}}\operatorname{Corr}^2(\mathbf {Xw},\mathbf {Yv}) \end{align}$

(Ho aggiunto l'analisi della correlazione canonica (CCA) a questo elenco.)

Ho il sospetto che la confusione potrebbe essere perché in SAS tutti e tre i metodi sembrano essere implementati tramite la stessa funzione PROC PLScon parametri diversi. Quindi potrebbe sembrare che tutti e tre i metodi siano casi speciali di PLS perché è così che viene denominata la funzione SAS. Questa, tuttavia, è solo una sfortunata denominazione. In realtà, PLS, RRR e PCR sono tre diversi metodi che sono appena implementati in SAS in una funzione che per qualche ragione viene chiamata PLS.

Entrambi i tutorial a cui ti sei collegato sono in realtà molto chiari a riguardo. La pagina 6 del tutorial di presentazione indica gli obiettivi di tutti e tre i metodi e lo fa non dice che PLS "diventa" RRR o PCR, contrariamente a quanto affermato nella domanda. Allo stesso modo, la documentazione SAS spiega che tre metodi sono diversi, fornendo formule e intuizione:

[P] La regressione delle componenti principali seleziona i fattori che spiegano quante più variazioni predittive possibili, la regressione di rango ridotto seleziona i fattori che spiegano quante più variazioni di risposta possibile e i minimi quadrati parziali bilanciano i due obiettivi, cercando fattori che spieghino sia la risposta sia la variazione predittore .

C'è anche una figura nella documentazione SAS che mostra un bell'esempio di giocattolo in cui tre metodi offrono soluzioni diverse. In questo esempio di giocattolo ci sono due predittori e e una variabile di risposta . La direzione in che è maggiormente correlata a sembra essere ortogonale alla direzione della varianza massima in $x_1$ $x_2$ $y$ $X$ $y$ $X$ . Quindi PC1 è ortogonale al primo asse RRR e l'asse PLS si trova nel mezzo.

Si può aggiungere una penalità di cresta alla funzione di RRR persa ottenendo una regressione di livello ridotto di cresta o RRRR. Questo porterà l'asse di regressione verso la direzione PC1, in qualche modo simile a quello che sta facendo PLS. Tuttavia, la funzione di costo per RRRR non può essere scritta in un modulo PLS, quindi rimangono diverse.

Si noti che quando esiste solo una variabile predittore , CCA = RRR = regressione abituale. $y$

— ameba dice Reinstate Monica
fonte

Il tavolo alla fine è molto utile. Sulla base di tale tabella, si potrebbe considerare PCA, RRR e CCA come "casi speciali" di PLS se si pensa anche che le biciclette e i monocicli siano casi speciali di un triciclo. Non tendo a pensare in quel modo.

— EdM

@EdM, penso che si possa dire che tutti questi metodi sono casi speciali di un metodo unificante che non ha davvero un nome (ma che si può inventare!). Ma il nome "PLS" ha già un significato stabilito e questo significato non include nessuna di queste altre tecniche.

— ameba dice di reintegrare Monica il

E grazie! Ho deciso ora di spostare il tavolo all'inizio della risposta :)

— Ameba dice Reinstate Monica

X

$X$

Y

$Y$

V a r (X w)^{α} \cdot C o r r (X w, Y v)^{β} \cdot V a r (Y v)^{γ}

$\mathrm{Var}(Xw)^\alpha\cdot \mathrm{Corr}(Xw,Yv)^\beta\cdot \mathrm{Var}(Yv)^\gamma$ e ottenere vari metodi per vari valori di alfa, beta e gamma. Non pensare che sia molto utile.

— ameba dice Reinstate Monica il

@Moskowitz: In generale, quando le persone parlano del metodo A come "caso speciale" del metodo B, significano che B è più generale e A è equivalente a B con alcuni parametri specifici. Essi non significa che A dà gli stessi risultati di B in alcune condizioni speciali sul set di dati. Da qui la mia risposta alla tua domanda.

— ameba dice Reinstate Monica il