In cosa consiste la "regressione di rango ridotto"?


22

Ho letto Gli elementi dell'apprendimento statistico e non riuscivo a capire di cosa trattasse la Sezione 3.7 "Riduzione e selezione di risultati multipli". Parla di RRR (regressione di rango ridotto) e posso solo capire che la premessa riguarda un modello lineare multivariato generalizzato in cui i coefficienti sono sconosciuti (e devono essere stimati) ma è noto che non hanno rango completo. Questa è l'unica cosa che capisco.

Il resto della matematica è oltre me. Non aiuta nemmeno il fatto che gli autori dicano "si può mostrare" e lascia le cose come un esercizio.

Qualcuno può aiutare a spiegare cosa sta succedendo qui, in modo intuitivo? Questo capitolo sta presumibilmente discutendo di nuovi metodi? o cosa?


1
Sembra dare metodi di regressione che sfruttano i modelli multi-esito nel contesto del restringimento e della selezione delle variabili. Non esiste un singolo risultato Y, ma più di un risultato Y. Supponiamo che tu abbia 5 risultati Y, quindi questa sezione discute i metodi per raggruppare la stima dei metodi, invece di costruire solo 5 modelli separati.
spdrnl,

1
I miei pochi centesimi: l'assunzione di una matrice di basso rango rende le cose più semplici. Fortunatamente questo presupposto vale per molte fonti di dati del mondo reale.
Vladislavs Dovgalecs,

1
Sembra che questo presupposto riguardi le restrizioni sulla soluzione. Questo documento descrive perché statprob.com/encyclopedia/…
Vladislavs Dovgalecs,

Risposte:


42

1. Che cos'è la regressione di livello ridotto (RRR)?

Considerare la regressione lineare multipla multivariata, ovvero la regressione con variabili indipendenti e variabili dipendenti. Consenti a e essere centrati set di dati predittore ( ) e risposta ( ). Quindi la normale regressione dei minimi quadrati ordinari (OLS) può essere formulata come minimizzando la seguente funzione di costo:q X Y n × p n × qpqXYn×pn×q

L=YXB2,

dove è una matrice di pesi di regressione. La sua soluzione è data da ed è facile da vedi che equivale a fare regressioni OLS separate, una per ogni variabile dipendente. p × q B O L S = ( XX ) - 1 XY , qBp×q

B^OLS=(XX)1XY,
q

Ridotto rango di regressione introduce un vincolo di rango su , vale a dire dovrebbe essere minimizzato con , dove è la massima consentita di rango . L classifica ( B ) r r BBLrank(B)rrB

2. Come ottenere la soluzione RRR?

Si scopre che RRR può essere lanciato come problema di autovettore. In effetti, usando il fatto che OLS è essenzialmente una proiezione ortogonale sullo spazio di colonna di , possiamo riscrivere comeIl primo termine non dipende da e il secondo termine può essere minimizzato da SVD / PCA dei valori adattati . L L = Y - X B O L S2 + X B O L S - X B 2 . B Y = X B O L SXL

L=YXB^OLS2+XB^OLSXB2.
BY^=XB^OLS

In particolare, se sono primo assi principali di , quindi r Y B R R R = B O L S U r U r .UrrY^

B^RRR=B^OLSUrUr.

3. A cosa serve il RRR?

Ci possono essere due ragioni per usare RRR.

Innanzitutto, è possibile utilizzarlo per scopi di regolarizzazione. Analogamente a cresta di regressione (RR), lazo, ecc, RRR introduce alcuna penalità "ritiro" sul . Il rango ottimale può essere trovato tramite validazione incrociata. Nella mia esperienza, RRR supera facilmente OLS ma tende a perdere a RR. Tuttavia, RRR + RR può funzionare (leggermente) meglio della sola RR. rBr

In secondo luogo, è possibile utilizzarlo come metodo di riduzione della dimensionalità / esplorazione dei dati. Se abbiamo un mucchio di variabili predittive e un mucchio di variabili dipendenti, allora RRR costruirà "fattori latenti" nello spazio predittore che fanno il miglior lavoro per spiegare la varianza dei DV. Si può quindi provare a interpretare questi fattori latenti, a tracciarli, ecc. Per quanto ne so, questo è di routine fatto in ecologia dove RRR è noto come analisi di ridondanza ed è un esempio di ciò che chiamano metodi di ordinazione ( vedi la risposta di @ GavinSimpson qui ).

4. Relazione con altri metodi di riduzione della dimensionalità

RRR è strettamente collegato ad altri metodi di riduzione della dimensionalità, come CCA e PLS. L'ho coperto un po 'nella mia risposta a Qual è la connessione tra minimi quadrati parziali, regressione di rango ridotta e regressione della componente principale?

se e sono set di dati predittore centrato ( ) e response ( ) e se cerchiamo la prima coppia di assi, per e per , quindi questi metodi massimizzano le seguenti quantità:XYn×pn×qwRpXvRqY

PCUN:Var(Xw)RRR:Var(Xw)Corr2(Xw,Yv)Var(Yv)PLS:Var(Xw)Corr2(Xw,Yv)Var(Yv)=Cov2(Xw,Yv)CCUN:Var(Xw)Corr2(Xw,Yv)

Vedi lì per qualche dettaglio in più.

Vedi Torre, 2009, Un quadro dei minimi quadrati per l'analisi dei componenti per un trattamento dettagliato di come la maggior parte dei comuni metodi multivariati lineari (ad es. PCA, CCA, LDA, ma non PLS!) Possono essere visti come RRR.

5. Perché questa sezione di Hastie et al. così confuso?

Hastie et al. usa il termine RRR per riferirti a qualcosa di leggermente diverso! Invece di usare la funzione di perdita usano come si può vedere nella loro formula 3.68. Ciò introduce un fattore di sbiancamento nella funzione di perdita, essenzialmente imbiancando le variabili dipendenti. Se guardi il confronto tra CCA e RRR sopra, noterai che se sbiancato la differenza scompare. Quindi cosa Hastie et al. call RRR è in realtà CCA sotto mentite spoglie (e in effetti, vedi il loro 3.69).

L=Y-XB2,
L=(Y-XB)(YY)-1/22,
YY

Niente di tutto ciò è adeguatamente spiegato in questa sezione, quindi la confusione.


Vedi la mia risposta al tutorial amichevole o introduzione alla regressione di rango ridotto per ulteriori letture.


Questa è una spiegazione dettagliata molto ben scritta. Grazie l'ho apprezzato.
cgo

@amoeba Risposta fantastica. Posso suggerire un paio di ritocchi per renderlo più accessibile? Nell'ultima riga della prima voce, puoi specificare quale è, ad esempio, il rango della matrice del modello se è quello che è. In secondo luogo, sull'equazione di definizione sotto la seconda voce, si introduce , che è i coefficienti di popolazione, e quindi un parametro sconosciuto. Puoi approfondire un po 'quello? rB
Antoni Parellada,

1
(1) È regressione multivariata , @Antoni, ovvero è una matrice, e anche è una matrice, non un vettore. (2) Qui è solo un parametro della perdita funzione . L'obiettivo è di trovare minimizzazione . YBBLBL
ameba dice di reintegrare Monica

1
Informazioni sulla selezione del grado ottimale in RRRR, si noti che i gradi di libertà possono essere calcolati esplicitamente in funzione di : , dove è la dimensione di input e è la dimensione di output. Si può quindi utilizzare la validazione incrociata generalizzata (GCV) per selezionare la migliore : minimizzare . r ^ df ( r ) = p q - ( p - r ) ( q - r ) + "un piccolo termine di correzione" p q r Y - Y RRRR ( r ) 2 Frorrdf^(r)=pq-(p-r)(q-r)+"un piccolo termine di correzione"pqrY-Y^RRRR(r)indietro2(nq-df^(r))2
dohmatob,


3

La regressione di rango ridotto è un modello in cui non esiste un singolo risultato Y, ma più risultati Y. Ovviamente, puoi semplicemente inserire una regressione lineare multivariata separata per ogni risposta, ma questo sembra inefficiente quando la relazione funzionale tra i predittori e ciascuna risposta è chiaramente simile. Vedi questo esercizio di Kaggle per una situazione in cui credo che ciò valga ovviamente.

https://www.kaggle.com/c/bike-sharing-demand/data

Esistono diverse tecniche correlate per affrontare questo problema che creano "fattori" o "componenti" dalle variabili X che vengono quindi utilizzate per prevedere gli Y. Questa pagina di documentazione di SAS mi ha aiutato a chiarire le differenze. La regressione di rango ridotto sembra riguardare l'estrazione di componenti che rappresentano al massimo la variazione tra le risposte, in contrasto con i minimi quadrati parziali che estrae componenti che rappresentano al massimo la variazione tra le risposte e i predittori.

https://support.sas.com/documentation/cdl/en/statug/63347/HTML/default/viewer.htm#statug_pls_sect014.htm


+1. È corretto. Ho discusso di questa pagina della documentazione SAS e in particolare della loro figura nella mia risposta a stats.stackexchange.com/questions/206587.
ameba dice di reintegrare Monica
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.