Questi sono tre metodi diversi e nessuno di essi può essere visto come un caso speciale di un altro.
Formalmente, se e Y sono set di dati predittore centrato ( n × p ) e risposta ( n × q ) e se cerchiamo la prima coppia di assi, w ∈ R p per X e v ∈ R qXYn×pn×qw∈RpXv∈Rq per , allora questi metodi massimizzare le seguenti quantità:Y
PCA:RRR:PLS:CCA:Var(Xw)Var(Xw)⋅Corr2(Xw,Yv)⋅Var(Yv)Var(Xw)⋅Corr2(Xw,Yv)⋅Var(Yv)=Cov2(Xw,Yv)Var(Xw)⋅Corr2(Xw,Yv)
(Ho aggiunto l'analisi della correlazione canonica (CCA) a questo elenco.)
Ho il sospetto che la confusione potrebbe essere perché in SAS tutti e tre i metodi sembrano essere implementati tramite la stessa funzione PROC PLS
con parametri diversi. Quindi potrebbe sembrare che tutti e tre i metodi siano casi speciali di PLS perché è così che viene denominata la funzione SAS. Questa, tuttavia, è solo una sfortunata denominazione. In realtà, PLS, RRR e PCR sono tre diversi metodi che sono appena implementati in SAS in una funzione che per qualche ragione viene chiamata PLS
.
Entrambi i tutorial a cui ti sei collegato sono in realtà molto chiari a riguardo. La pagina 6 del tutorial di presentazione indica gli obiettivi di tutti e tre i metodi e lo fa non dice che PLS "diventa" RRR o PCR, contrariamente a quanto affermato nella domanda. Allo stesso modo, la documentazione SAS spiega che tre metodi sono diversi, fornendo formule e intuizione:
[P] La regressione delle componenti principali seleziona i fattori che spiegano quante più variazioni predittive possibili, la regressione di rango ridotto seleziona i fattori che spiegano quante più variazioni di risposta possibile e i minimi quadrati parziali bilanciano i due obiettivi, cercando fattori che spieghino sia la risposta sia la variazione predittore .
C'è anche una figura nella documentazione SAS che mostra un bell'esempio di giocattolo in cui tre metodi offrono soluzioni diverse. In questo esempio di giocattolo ci sono due predittori e x 2 e una variabile di risposta y . La direzione in X che è maggiormente correlata a y sembra essere ortogonale alla direzione della varianza massima in Xx1x2yXyX . Quindi PC1 è ortogonale al primo asse RRR e l'asse PLS si trova nel mezzo.
Si può aggiungere una penalità di cresta alla funzione di RRR persa ottenendo una regressione di livello ridotto di cresta o RRRR. Questo porterà l'asse di regressione verso la direzione PC1, in qualche modo simile a quello che sta facendo PLS. Tuttavia, la funzione di costo per RRRR non può essere scritta in un modulo PLS, quindi rimangono diverse.
Si noti che quando esiste solo una variabile predittore , CCA = RRR = regressione abituale.y