La sezione 3.5.2 in Gli elementi dell'apprendimento statistico è utile perché pone la regressione del PLS nel giusto contesto (di altri metodi di regolarizzazione), ma è davvero molto breve e lascia alcune affermazioni importanti come esercizi. Inoltre, considera solo un caso di una variabile dipendente univariata y .
La letteratura su PLS è vasta, ma può essere abbastanza confusa perché ci sono molti "sapori" diversi di PLS: versioni univariate con un singolo DV (PLS1) e versioni multivariate con diversi DV (PLS2), versioni simmetriche trattando e versioni uguali e asimmetriche ("regressione PLS") trattando come indipendenti e come variabili dipendenti, versioni che consentono una soluzione globale tramite SVD e versioni che richiedono deviazioni iterative per produrre ogni successivo coppia di direzioni PLS, ecc. ecc.Y X Y X YyYXYXY
Tutto ciò è stato sviluppato nel campo della chemiometria e rimane in qualche modo disconnesso dalla letteratura statistica o di apprendimento automatico "tradizionale".
Il documento di sintesi che trovo più utile (e che contiene molti altri riferimenti) è:
Per una discussione più teorica posso ulteriormente raccomandare:
Un breve primer sulla regressione di PLS con univariato (aka PLS1, aka SIMPLS)y
L'obiettivo della regressione è stimare in un modello lineare . La soluzione OLS gode di molte proprietà di ottimalità ma può soffrire di overfitting. Infatti, OLS cerca che produce la massima correlazione possibile di con . Se ci sono molti predittori, è sempre possibile trovare una combinazione lineare che abbia un'alta correlazione con . Questa sarà una correlazione spuria, e tale solito punta in una direzione spiegando una varianza molto piccola iny = X β + ϵ β = ( X ⊤ X ) - 1 X ⊤ y β X β y y β Xβy=Xβ+ϵβ=(X⊤X)−1X⊤yβXβyyβX. Le indicazioni che spiegano una varianza molto bassa sono spesso direzioni molto "rumorose". In tal caso, anche se sui dati di allenamento la soluzione OLS funziona alla grande, sui dati di test andrà molto peggio.
Al fine di prevenire un eccesso di adattamento, si usano metodi di regolarizzazione che essenzialmente costringono a puntare verso direzioni di elevata varianza in (questo è anche chiamato "restringimento" di ; vedi Perché funziona il restringimento? ). Uno di questi metodi è la regressione del componente principale (PCR) che scarta semplicemente tutte le direzioni a bassa varianza. Un altro metodo (migliore) è la regressione della cresta che penalizza uniformemente le direzioni a bassa varianza. Ancora un altro metodo è PLS1.X ββXβ
PLS1 sostituisce l'obiettivo OLS di trovare che massimizza la correlazione con un obiettivo alternativo di trovare con lunghezza massimizzare la covarianza che di nuovo penalizza efficacemente le direzioni di bassa varianza.βcorr(Xβ,y)β∥β∥=1
cov(Xβ,y)∼corr(Xβ,y)⋅var(Xβ)−−−−−−−√,
La ricerca di tale (chiamiamolo ) produce il primo componente PLS . Si può cercare ulteriormente il secondo (e poi il terzo, ecc.) Componente PLS che ha la più alta covarianza possibile con sotto il vincolo di non essere correlato con tutti i componenti precedenti. Questo deve essere risolto iterativamente, poiché non esiste una soluzione a forma chiusa per tutti i componenti (la direzione del primo componente è semplicemente data daββ1z1=Xβ1yβ1X⊤ynormalizzato alla lunghezza dell'unità). Quando viene estratto il numero desiderato di componenti, la regressione PLS scarta i predittori originali e utilizza i componenti PLS come nuovi predittori; questo produce una combinazione lineare di essi che può essere combinata con tutti i per formare il .βzβiβPLS
Nota che:
- Se vengono utilizzati tutti i componenti PLS1, PLS sarà equivalente a OLS. Quindi il numero di componenti funge da parametro di regolarizzazione: più basso è il numero, più forte è la regolarizzazione.
- Se i predittori non sono correlati e hanno tutti la stessa varianza (ovvero è stato sbiancato ), allora esiste un solo componente PLS1 ed è equivalente a OLS.XX
- I vettori di peso e per non saranno ortogonali, ma produrranno componenti non correlati e .βiβji≠jzi=Xβizj=Xβj
Detto questo, non sono a conoscenza di alcun vantaggio pratico della regressione PLS1 rispetto alla regressione della cresta (mentre quest'ultima presenta molti vantaggi: è continua e non discreta, ha una soluzione analitica, è molto più standard, consente estensioni del kernel e analisi formule per errori di convalida incrociata esclusivi, ecc. ecc.).
Citando da Frank & Friedman:
RR, PCR e PLS sono visti nella Sezione 3 per operare in modo simile. Il loro obiettivo principale è ridurre il vettore del coefficiente di soluzione dalla soluzione OLS verso le direzioni nello spazio variabile predittore di una maggiore diffusione del campione. PCR e PLS si vedono ridursi più pesantemente dalle direzioni a bassa diffusione rispetto a RR, che fornisce il restringimento ottimale (tra gli stimatori lineari) per un'equidirezione precedente. Pertanto PCR e PLS assumono che la verità abbia probabilmente allineamenti preferenziali particolari con le direzioni ad alta diffusione della distribuzione predittore-variabile (campione). Un risultato alquanto sorprendente è che PLS (in aggiunta) posiziona una massa di probabilità maggiore sul vettore del coefficiente reale allineandolo con la direzione componente principale, dove KKK è il numero di componenti PLS utilizzati, in effetti espandendo la soluzione OLS in quella direzione.
Inoltre conducono un ampio studio di simulazione e concludono (enfasi la mia):
Per le situazioni coperte da questo studio di simulazione, si può concludere che tutti i metodi distorti (RR, PCR, PLS e VSS) forniscono miglioramenti sostanziali rispetto a OLS. [...] In tutte le situazioni, RR ha dominato tutti gli altri metodi studiati. Il PLS di solito ha fatto quasi quanto la RR e di solito ha superato la PCR, ma non molto.
Aggiornamento: nei commenti @cbeleites (che lavora in chemiometria) suggerisce due possibili vantaggi di PLS rispetto a RR:
Un analista può avere un'ipotesi a priori su quanti componenti latenti dovrebbero essere presenti nei dati; ciò consentirà effettivamente di stabilire un livello di regolarizzazione senza eseguire la convalida incrociata (e potrebbero non esserci dati sufficienti per fare un CV affidabile). Una tale scelta a priori di potrebbe essere più problematica in RR.λ
RR fornisce una singola combinazione lineare come soluzione ottimale. Al contrario, PLS, ad esempio con cinque componenti, produce cinque combinazioni lineari β i che vengono quindi combinate per prevedere y . È probabile che le variabili originali fortemente correlate tra loro siano combinate in un singolo componente PLS (perché combinarle insieme aumenterà il termine di varianza spiegato). Quindi potrebbe essere possibile interpretare i singoli componenti PLS come alcuni fattori latenti reali che guidano y . L'affermazione è che è più facile interpretare β 1 , β 2 , ecc., Al contrario del giunto β PβRRβiyyβ1,β2, . Confrontalo con la PCR, dove si può anche vedere come un vantaggio che i singoli componenti principali possono potenzialmente essere interpretati e assegnati un significato qualitativo.βPLS