La regressione del minimo angolo mantiene le correlazioni monotonicamente decrescenti e legate?


9

Sto cercando di risolvere un problema per la regressione dell'angolo minimo (LAR). Questo è un problema 3.23 a pagina 97 di Hastie et al., Elements of Statistical Learning, 2nd. ed. (5a stampa) .

Si consideri un problema di regressione con tutte le variabili e la risposta che hanno zero zero e deviazione standard una. Supponiamo anche che ogni variabile abbia identica correlazione assoluta con la risposta:

1N|Xj,y|=λ,j=1,...,p

Sia il coefficiente dei minimi quadrati di su e che per .β^yXu(α)=αXβ^α[0,1]

Mi viene chiesto di mostrare che e sto avendo problemi con quello. Si noti che questo può sostanzialmente dice che le correlazioni di ogni con i residui rimangono uguali in grandezza man mano che procediamo verso .xju

1N|Xj,y-u(α)|=(1-α)λ,j=1,...,p
Xju

Inoltre non so come dimostrare che le correlazioni sono uguali a:

λ(α)=(1-α)(1-α)2+α(2-α)NRSSλ

Qualsiasi suggerimento sarebbe molto apprezzato!


2
@Belmont, che cosa sei ? Potresti fornire più contesto sul tuo problema? Il collegamento all'articolo con proprietà standard di LAR, ad esempio, sarebbe di grande aiuto. u(α)
mpiktas,

@Belmont, questo sembra un problema di Hastie, et al., Elements of Statistical Learning , 2nd. ed. Sono compiti a casa? In tal caso, potresti aggiungere quel tag.
cardinale

@Belmont, ora che @cardinal ha dato una risposta completa, puoi specificare cosa è realmente LAR, per riferimento futuro? A giudicare dalla risposta si tratta della manipolazione standard dei prodotti delle regressioni dei minimi quadrati, dati alcuni vincoli iniziali. Non dovrebbe esserci un nome speciale per questo senza serie ragioni.
mpiktas,

1
@mpiktas, è un algoritmo graduale, quindi ogni volta che una variabile entra o esce dal modello nel percorso di regolarizzazione, la dimensione (cioè cardinalità / dimensione) di cresce o si riduce rispettivamente e viene utilizzata una "nuova" stima LS basata su le variabili attualmente "attive". Nel caso del lazo, che è un problema di ottimizzazione convessa, la procedura consiste essenzialmente nello sfruttare una struttura speciale nelle condizioni KKT per ottenere una soluzione molto efficiente. Esistono anche generalizzazioni, ad esempio, per la regressione logistica basata su IRLS e Heine-Borel (per dimostrare la convergenza nel numero finito di passaggi.)β
Cardinale

1
@Belmont -1, dato che ho recentemente acquistato il libro di Hastie, posso confermare che questo è un esercizio da esso. Quindi ti sto dando un grande -1, dal momento che non riesci nemmeno a dare tutte le definizioni, non sto nemmeno parlando di dare il riferimento.
mpiktas,

Risposte:


21

Questo è il problema 3.23 a pagina 97 di Hastie et al., Elements of Statistical Learning , 2nd. ed. (5a stampa) .

La chiave di questo problema è una buona comprensione dei minimi quadrati ordinari (ovvero, regressione lineare), in particolare l'ortogonalità dei valori adattati e dei residui.

Lemma dell'ortogonalità : lascia che sia la matrice di disegno n × p , y il vettore di risposta e β i parametri (veri). Supponendo che X è full-rango (che ci sarà tutto), le stime OLS di β siamo β = ( X T X ) - 1 X T y . I valori stimati sono y = X ( X T X ) - 1 X T y . poi Xn×pyβXββ^=(XTX)1XTyy^=X(XTX)1XTy. Cioè, i valori adattati sonoortogonaliai residui. Questo segue dalXT(y - y )=XTY-XTX(XTX)-1XTY=XTY-XTy^,yy^=y^T(yy^)=0 .XT(yy^)=XTyXTX(XTX)1XTy=XTyXTy=0

Ora, lasciate essere un vettore colonna in modo tale che è il esima colonna di . Le condizioni presunte sono:x j j XxjxjjX

  • j11Nxj,xj=1 per ogni , ,j1Ny,y=1
  • 1p1Nxj,1p=1Ny,1p=0 dove indica un vettore di quelli di lunghezza p , e1pp
  • per tuttoj.1N|xj,y|=λj

Si noti che in particolare , l'ultima affermazione del lemma ortogonalità è identico a per tutti j .xj,yy^=0j


Le correlazioni sono legate

Ora, . Così, x j , y - u ( un ) = x j , ( 1 - α ) y + α y - α y= ( 1 - α ) x j , y + α u(α)=αXβ^=αy^ e il secondo termine sul lato destro è zero dallemma ortogonalità, così 1

xj,yu(a)=xj,(1α)y+αyαy^=(1α)xj,y+αxj,yy^,
come desiderato. Il valore assoluto delle correlazioni sono solo ρ j(α)= 1
1N|Xj,y-u(α)|=(1-α)λ,
ρ^j(α)=1N|Xj,y-u(α)|1NXj,Xj1Ny-u(α),y-u(α)=(1-α)λ1Ny-u(α),y-u(α)

jXjy

αp


Forma esplicita della correlazione (assoluta)

y-u(α),y-u(α)=(1-α)y+αy-u(α),(1-α)y+αy-u(α).

Sostituendo in e usando la linearità del prodotto interno, otteniamou(α)=αy^

y-u(α),y-u(α)=(1-α)2y,y+2α(1-α)y,y-y^+α2y-y^,y-y^.

Osservalo

  • y,y=N per ipotesi,
  • y,y-y^=y-y^,y-y^+y^,y-y^=y-y^,y-y^
  • y-y^,y-y^=RSS

Mettendo tutto insieme, noterai che siamo arrivati

ρ^j(α)=(1-α)λ(1-α)2+α(2-α)NRSS=(1-α)λ(1-α)2(1-RSSN)+1NRSS

1-RSSN=1N(y,y,-y-y^,y-y^)0ρ^j(α)αρ^j(α)0α1


Epilogo : concentrati sulle idee qui. Ce n'è davvero solo uno. Il lemma dell'ortogonalità fa quasi tutto il lavoro per noi. Il resto è solo algebra, notazione e capacità di far funzionare questi ultimi due.


2
@cardinale, +1. La risposta è di gran lunga migliore della domanda.
mpiktas,

@cardinal, potresti voler cambiare il link in amazon o in qualche altro sito. Penso che il collegamento al libro completo potrebbe sollevare alcuni problemi di copyright.
mpiktas,

3
@mpiktas, no. Nessun problema di copyright. Questo è il sito ufficiale del libro. Gli autori hanno ottenuto l'autorizzazione da Springer per rendere il PDF disponibile gratuitamente online. (Vedi la nota in tal senso sul sito.) Penso che abbiano preso l'idea da Stephen Boyd e dal suo testo di ottimizzazione convesso . Speriamo che una tendenza del genere aumenti di tendenza nei prossimi anni. Godere!
cardinale

@cardinale, ooh grazie mille! È molto generoso dagli autori.
mpiktas,

@mpiktas, è di gran lunga il libro più popolare della serie Springer in Statistica. Sembra buono su un iPad. Il che mi ricorda --- Dovrei scaricare anche il testo di Boyd su di esso. Saluti.
cardinale
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.