Teoria dietro la regressione parziale dei minimi quadrati

Qualcuno può raccomandare una buona esposizione della teoria alla base della regressione dei minimi quadrati parziali (disponibile online) per qualcuno che capisce SVD e PCA? Ho esaminato molte fonti online e non ho trovato nulla che avesse la giusta combinazione di rigore e accessibilità.

Ho esaminato The Elements of Statistical Learning , che è stato suggerito in un commento su una domanda posta su Cross Validated , che cos'è la regressione dei minimi quadrati parziali (PLS) e in cosa differisce dall'OLS? , ma non credo che questo riferimento renda giustizia all'argomento (è troppo breve per farlo e non fornisce molta teoria sull'argomento). Da quello che ho letto, PLS sfrutta combinazioni lineari delle variabili predittive, che massimizzano la covarianza soggetta ai vincoli e se , dove il $z_i=X \varphi_i$ $y^Tz_i$ $\|\varphi_i\|=1$ $z_i^Tz_j=0$ $i \neq j$ $\varphi_i$ sono scelti iterativamente, nell'ordine in cui massimizzano la covarianza. Ma anche dopo tutto quello che ho letto, sono ancora incerto se questo è vero e, in tal caso, come viene eseguito il metodo.

— clarpaul
fonte

La sezione 3.5.2 in Gli elementi dell'apprendimento statistico è utile perché pone la regressione del PLS nel giusto contesto (di altri metodi di regolarizzazione), ma è davvero molto breve e lascia alcune affermazioni importanti come esercizi. Inoltre, considera solo un caso di una variabile dipendente univariata $\mathbf y$ .

La letteratura su PLS è vasta, ma può essere abbastanza confusa perché ci sono molti "sapori" diversi di PLS: versioni univariate con un singolo DV (PLS1) e versioni multivariate con diversi DV (PLS2), versioni simmetriche trattando e versioni uguali e asimmetriche ("regressione PLS") trattando come indipendenti e come variabili dipendenti, versioni che consentono una soluzione globale tramite SVD e versioni che richiedono deviazioni iterative per produrre ogni successivo coppia di direzioni PLS, ecc. ecc. $\mathbf y$ $\mathbf Y$ $\mathbf X$ $\mathbf Y$ $\mathbf X$ $\mathbf Y$

Tutto ciò è stato sviluppato nel campo della chemiometria e rimane in qualche modo disconnesso dalla letteratura statistica o di apprendimento automatico "tradizionale".

Il documento di sintesi che trovo più utile (e che contiene molti altri riferimenti) è:

Rosipal & Krämer, 2006, panoramica e recenti progressi nei minimi quadrati parziali

Per una discussione più teorica posso ulteriormente raccomandare:

Frank & Friedman, 1993, una vista statistica di alcuni strumenti di regressione della chemiometria

Un breve primer sulla regressione di PLS con univariato (aka PLS1, aka SIMPLS) $y$

L'obiettivo della regressione è stimare in un modello lineare . La soluzione OLS gode di molte proprietà di ottimalità ma può soffrire di overfitting. Infatti, OLS cerca che produce la massima correlazione possibile di con . Se ci sono molti predittori, è sempre possibile trovare una combinazione lineare che abbia un'alta correlazione con . Questa sarà una correlazione spuria, e tale solito punta in una direzione spiegando una varianza molto piccola in $\beta$ $y=X\beta + \epsilon$ $\beta=(\mathbf X^\top \mathbf X)^{-1}\mathbf X^\top \mathbf y$ $\beta$ $\mathbf X \beta$ $\mathbf y$ $\mathbf y$ $\beta$ $\mathbf X$ . Le indicazioni che spiegano una varianza molto bassa sono spesso direzioni molto "rumorose". In tal caso, anche se sui dati di allenamento la soluzione OLS funziona alla grande, sui dati di test andrà molto peggio.

Al fine di prevenire un eccesso di adattamento, si usano metodi di regolarizzazione che essenzialmente costringono a puntare verso direzioni di elevata varianza in (questo è anche chiamato "restringimento" di ; vedi Perché funziona il restringimento? ). Uno di questi metodi è la regressione del componente principale (PCR) che scarta semplicemente tutte le direzioni a bassa varianza. Un altro metodo (migliore) è la regressione della cresta che penalizza uniformemente le direzioni a bassa varianza. Ancora un altro metodo è PLS1. $\beta$ $\mathbf X$ $\beta$

PLS1 sostituisce l'obiettivo OLS di trovare che massimizza la correlazione con un obiettivo alternativo di trovare con lunghezza massimizzare la covarianza che di nuovo penalizza efficacemente le direzioni di bassa varianza. $\beta$ $\operatorname{corr}(\mathbf X \beta, \mathbf y)$ $\beta$ $\|\beta\|=1$

cov (X β, y) \sim corr (X β, y) \cdot \sqrt{var (X β)},

$\operatorname{cov}(\mathbf X \beta, \mathbf y)\sim\operatorname{corr}(\mathbf X \beta, \mathbf y)\cdot\sqrt{\operatorname{var}(\mathbf X \beta)},$

La ricerca di tale (chiamiamolo ) produce il primo componente PLS . Si può cercare ulteriormente il secondo (e poi il terzo, ecc.) Componente PLS che ha la più alta covarianza possibile con sotto il vincolo di non essere correlato con tutti i componenti precedenti. Questo deve essere risolto iterativamente, poiché non esiste una soluzione a forma chiusa per tutti i componenti (la direzione del primo componente è semplicemente data da $\beta$ $\beta_1$ $\mathbf z_1 = \mathbf X \beta_1$ $\mathbf y$ $\beta_1$ $\mathbf X^\top \mathbf y$ normalizzato alla lunghezza dell'unità). Quando viene estratto il numero desiderato di componenti, la regressione PLS scarta i predittori originali e utilizza i componenti PLS come nuovi predittori; questo produce una combinazione lineare di essi che può essere combinata con tutti i per formare il . $\beta_z$ $\beta_i$ $\beta_\mathrm{PLS}$

Nota che:

Se vengono utilizzati tutti i componenti PLS1, PLS sarà equivalente a OLS. Quindi il numero di componenti funge da parametro di regolarizzazione: più basso è il numero, più forte è la regolarizzazione.
Se i predittori non sono correlati e hanno tutti la stessa varianza (ovvero è stato sbiancato ), allora esiste un solo componente PLS1 ed è equivalente a OLS. $\mathbf X$ $\mathbf X$
I vettori di peso e per non saranno ortogonali, ma produrranno componenti non correlati e . $\beta_i$ $\beta_j$ $i\ne j$ $\mathbf z_i=\mathbf X \beta_i$ $\mathbf z_j=\mathbf X \beta_j$

Detto questo, non sono a conoscenza di alcun vantaggio pratico della regressione PLS1 rispetto alla regressione della cresta (mentre quest'ultima presenta molti vantaggi: è continua e non discreta, ha una soluzione analitica, è molto più standard, consente estensioni del kernel e analisi formule per errori di convalida incrociata esclusivi, ecc. ecc.).

Citando da Frank & Friedman:

RR, PCR e PLS sono visti nella Sezione 3 per operare in modo simile. Il loro obiettivo principale è ridurre il vettore del coefficiente di soluzione dalla soluzione OLS verso le direzioni nello spazio variabile predittore di una maggiore diffusione del campione. PCR e PLS si vedono ridursi più pesantemente dalle direzioni a bassa diffusione rispetto a RR, che fornisce il restringimento ottimale (tra gli stimatori lineari) per un'equidirezione precedente. Pertanto PCR e PLS assumono che la verità abbia probabilmente allineamenti preferenziali particolari con le direzioni ad alta diffusione della distribuzione predittore-variabile (campione). Un risultato alquanto sorprendente è che PLS (in aggiunta) posiziona una massa di probabilità maggiore sul vettore del coefficiente reale allineandolo con la direzione componente principale, dove $K$ $K$ è il numero di componenti PLS utilizzati, in effetti espandendo la soluzione OLS in quella direzione.

Inoltre conducono un ampio studio di simulazione e concludono (enfasi la mia):

Per le situazioni coperte da questo studio di simulazione, si può concludere che tutti i metodi distorti (RR, PCR, PLS e VSS) forniscono miglioramenti sostanziali rispetto a OLS. [...] In tutte le situazioni, RR ha dominato tutti gli altri metodi studiati. Il PLS di solito ha fatto quasi quanto la RR e di solito ha superato la PCR, ma non molto.

Aggiornamento: nei commenti @cbeleites (che lavora in chemiometria) suggerisce due possibili vantaggi di PLS rispetto a RR:

Un analista può avere un'ipotesi a priori su quanti componenti latenti dovrebbero essere presenti nei dati; ciò consentirà effettivamente di stabilire un livello di regolarizzazione senza eseguire la convalida incrociata (e potrebbero non esserci dati sufficienti per fare un CV affidabile). Una tale scelta a priori di potrebbe essere più problematica in RR. $\lambda$
RR fornisce una singola combinazione lineare come soluzione ottimale. Al contrario, PLS, ad esempio con cinque componenti, produce cinque combinazioni lineari che vengono quindi combinate per prevedere . È probabile che le variabili originali fortemente correlate tra loro siano combinate in un singolo componente PLS (perché combinarle insieme aumenterà il termine di varianza spiegato). Quindi potrebbe essere possibile interpretare i singoli componenti PLS come alcuni fattori latenti reali che guidano . L'affermazione è che è più facile interpretare ecc., Al contrario del giunto $\beta_\mathrm{RR}$ $\beta_i$ $y$ $y$ $\beta_1, \beta_2,$ . Confrontalo con la PCR, dove si può anche vedere come un vantaggio che i singoli componenti principali possono potenzialmente essere interpretati e assegnati un significato qualitativo. $\beta_\mathrm{PLS}$

— ameba dice Reinstate Monica
fonte

Quel documento sembra utile. Non penso che risolva la quantità di overfitting che può essere causata da PLS.

— Frank Harrell,

X

$X$

Y

$Y$

La mia esperienza è che la cresta (stima quadratica della massima probabilità penalizzata) fornisce previsioni superiori. Penso che alcuni analisti ritengano che il PLS sia una tecnica di riduzione della dimensionalità nel senso di evitare un eccesso di adattamento, ma ritengo che non sia così.

— Frank Harrell,

b) se stai cercando un'interpretazione spettroscopica di ciò che fa il modello, trovo più facile osservare i caricamenti di PLS che tipo di sostanze vengono misurate. È possibile trovare una o due sostanze / classi di sostanze, in cui i coefficienti che includono tutte le variabili latenti sono più difficili da interpretare perché i contributi spettrali di più sostanze sono combinati. Ciò è più importante perché non si applicano tutte le normali regole di interpretazione spettrale: un modello PLS può scegliere alcune bande di una sostanza ignorandone altre. L'interpretazione "normale" degli spettri usa molto di questa band potrebbe ...

— cbeleites supporta Monica il

... provengono da questa o quella sostanza. Se è questa sostanza, deve esserci questa altra band. Poiché quest'ultima possibilità di verificare la sostanza non è possibile con le variabili / i carichi / i coefficienti latenti, interpretare le cose che variano insieme e quindi finire nella stessa variabile latente è molto più facile che interpretare i coefficienti che già riassumono tutti i tipi di possibili "suggerimenti" "che sono noti al modello.

— cbeleites supporta Monica il

Sì. Il libro di Herman Wold L'empirismo teorico: una logica generale per la costruzione di modelli scientifici è la migliore esposizione singola di PLS di cui sono a conoscenza, soprattutto dato che Wold è un ideatore dell'approccio. Per non parlare del fatto che è semplicemente un libro interessante da leggere e conoscere. Inoltre, sulla base di una ricerca su Amazon, il numero di riferimenti a libri su PLS scritti in tedesco è sorprendente, ma può darsi che il sottotitolo del libro di Wold ne faccia parte.

— Mike Hunter
fonte

Questo amazon.com/Towards-Unified-Scientific-Models-Methods/dp/… è collegato ma copre molto più di PLS

— kjetil b halvorsen,

Questo è vero, ma l'obiettivo principale del libro è lo sviluppo della teoria e l'applicazione di PLS da parte di Wold.

— Mike Hunter,

Teoria dietro la regressione parziale dei minimi quadrati

Un breve primer sulla regressione di PLS con univariato (aka PLS1, aka SIMPLS)yyy

Un breve primer sulla regressione di PLS con univariato (aka PLS1, aka SIMPLS) $y$