1. Che cos'è la regressione di livello ridotto (RRR)?
Considerare la regressione lineare multipla multivariata, ovvero la regressione con variabili indipendenti e variabili dipendenti. Consenti a e essere centrati set di dati predittore ( ) e risposta ( ). Quindi la normale regressione dei minimi quadrati ordinari (OLS) può essere formulata come minimizzando la seguente funzione di costo:q X Y n × p n × qpqXYn × pn × q
L = ∥ Y - X B ∥2,
dove è una matrice di pesi di regressione. La sua soluzione è data da ed è facile da vedi che equivale a fare regressioni OLS separate, una per ogni variabile dipendente. p × q B O L S = ( X ⊤ X ) - 1 X ⊤ Y , qBp × q
B^O L S= ( X⊤X )- 1X⊤Y ,
q
Ridotto rango di regressione introduce un vincolo di rango su , vale a dire dovrebbe essere minimizzato con , dove è la massima consentita di rango . L classifica ( B ) ≤ r r BBLrango( B ) ≤ rrB
2. Come ottenere la soluzione RRR?
Si scopre che RRR può essere lanciato come problema di autovettore. In effetti, usando il fatto che OLS è essenzialmente una proiezione ortogonale sullo spazio di colonna di , possiamo riscrivere comeIl primo termine non dipende da e il secondo termine può essere minimizzato da SVD / PCA dei valori adattati . L L = ‖ Y - X B O L S ‖ 2 + ‖ X B O L S - X B ‖ 2 . B Y = X B O L SXL
L = ∥ Y - X B^O L S∥2+ ∥ X B^O L S- X B ∥2.
BY^= X B^OL S
In particolare, se sono primo assi principali di , quindi r Y B R R R = B O L S U r U ⊤ r .UrrY^
B^R R R= B^OL SUrU⊤r.
3. A cosa serve il RRR?
Ci possono essere due ragioni per usare RRR.
Innanzitutto, è possibile utilizzarlo per scopi di regolarizzazione. Analogamente a cresta di regressione (RR), lazo, ecc, RRR introduce alcuna penalità "ritiro" sul . Il rango ottimale può essere trovato tramite validazione incrociata. Nella mia esperienza, RRR supera facilmente OLS ma tende a perdere a RR. Tuttavia, RRR + RR può funzionare (leggermente) meglio della sola RR. rBr
In secondo luogo, è possibile utilizzarlo come metodo di riduzione della dimensionalità / esplorazione dei dati. Se abbiamo un mucchio di variabili predittive e un mucchio di variabili dipendenti, allora RRR costruirà "fattori latenti" nello spazio predittore che fanno il miglior lavoro per spiegare la varianza dei DV. Si può quindi provare a interpretare questi fattori latenti, a tracciarli, ecc. Per quanto ne so, questo è di routine fatto in ecologia dove RRR è noto come analisi di ridondanza ed è un esempio di ciò che chiamano metodi di ordinazione ( vedi la risposta di @ GavinSimpson qui ).
4. Relazione con altri metodi di riduzione della dimensionalità
RRR è strettamente collegato ad altri metodi di riduzione della dimensionalità, come CCA e PLS. L'ho coperto un po 'nella mia risposta a Qual è la connessione tra minimi quadrati parziali, regressione di rango ridotta e regressione della componente principale?
se e sono set di dati predittore centrato ( ) e response ( ) e se cerchiamo la prima coppia di assi, per e per , quindi questi metodi massimizzano le seguenti quantità:XYn × pn × qw ∈ RpXv ∈ RqY
P C A :R R R :P L S :C C A :Var( X w )Var( X w ) ⋅Corr2( X w , Y v ) ⋅ Var( Y v )Var( X w ) ⋅ Corr2( X w , Y v ) ⋅ Var( Y v ) = Cov2( X w , Y v )Var( X w ) ⋅Corr2( X w , Y v )
Vedi lì per qualche dettaglio in più.
Vedi Torre, 2009, Un quadro dei minimi quadrati per l'analisi dei componenti per un trattamento dettagliato di come la maggior parte dei comuni metodi multivariati lineari (ad es. PCA, CCA, LDA, ma non PLS!) Possono essere visti come RRR.
5. Perché questa sezione di Hastie et al. così confuso?
Hastie et al. usa il termine RRR per riferirti a qualcosa di leggermente diverso! Invece di usare la funzione di perdita usano come si può vedere nella loro formula 3.68. Ciò introduce un fattore di sbiancamento nella funzione di perdita, essenzialmente imbiancando le variabili dipendenti. Se guardi il confronto tra CCA e RRR sopra, noterai che se sbiancato la differenza scompare. Quindi cosa Hastie et al. call RRR è in realtà CCA sotto mentite spoglie (e in effetti, vedi il loro 3.69).
L = ∥ Y - X B ∥2,
L = ∥ ( Y - X B ) ( Y⊤Y )- 1 / 2∥2,
YY
Niente di tutto ciò è adeguatamente spiegato in questa sezione, quindi la confusione.
Vedi la mia risposta al tutorial amichevole o introduzione alla regressione di rango ridotto per ulteriori letture.