Questo è il problema 3.23 a pagina 97 di Hastie et al., Elements of Statistical Learning , 2nd. ed. (5a stampa) .
La chiave di questo problema è una buona comprensione dei minimi quadrati ordinari (ovvero, regressione lineare), in particolare l'ortogonalità dei valori adattati e dei residui.
Lemma dell'ortogonalità : lascia che sia la matrice di disegno n × p , y il vettore di risposta e β i parametri (veri). Supponendo che X è full-rango (che ci sarà tutto), le stime OLS di β siamo β = ( X T X ) - 1 X T y . I valori stimati sono y = X ( X T X ) - 1 X T y . poi ⟨Xn × pyβXββ^= ( XTX)- 1XTyy^= X( XTX)- 1XTy. Cioè, i valori adattati sonoortogonaliai residui. Questo segue dalXT(y - y )=XTY-XTX(XTX)-1XTY=XTY-XT⟨ y^, y- y^⟩ = Y^T( y- y^) = 0 .XT( y- y^) = XTy- XTX( XTX)- 1XTy= XTy- XTy= 0
Ora, lasciate essere un vettore colonna in modo tale che è il esima colonna di . Le condizioni presunte sono:x j j XXjXjjX
- j11N⟨ xj, xj⟩ = 1 per ogni , ,j1N⟨ y, y⟩ = 1
- 1p1N⟨ xj, 1p⟩ = 1N⟨ y, 1p⟩ = 0 dove indica un vettore di quelli di lunghezza p , e1pp
- per tuttoj.1N| ⟨ xj, y⟩ | = λj
Si noti che in particolare , l'ultima affermazione del lemma ortogonalità è identico a per tutti j .⟨ xj, y- y^⟩ = 0j
Le correlazioni sono legate
Ora, . Così,
⟨ x j , y - u ( un ) ⟩ = ⟨ x j , ( 1 - α ) y + α y - α y ⟩ = ( 1 - α ) ⟨ x j , y ⟩ + α ⟨u ( α ) = α Xβ^= α y^
e il secondo termine sul lato destro è zero dallemma ortogonalità, così
1
⟨ xj, y- u ( un ) ⟩ = ⟨ xj, ( 1 - α ) y+ α y- α y^⟩ = ( 1 - α ) ⟨ xj, y⟩ + Alfa ⟨ xj, y- y^⟩ ,
come desiderato. Il valore assoluto delle correlazioni sono solo
ρ j(α)= 11N| ⟨ xj, y- u ( α ) ⟩ | = ( 1 - α ) λ ,
ρ^j( α ) = 1N| ⟨ xj, y- u ( α ) ⟩ |1N⟨ xj, xj⟩--------√1N⟨ y- u ( α ) , y- u ( α ) ⟩------------------√= ( 1 - α ) λ1N⟨ y- u ( α ) , y- u ( α ) ⟩------------------√
jXjy
αp
Forma esplicita della correlazione (assoluta)
⟨ y- u ( α ) , y- u ( α ) ⟩ = ⟨ ( 1 - α ) y+ α y- u ( α ) , ( 1 - α ) y+ α y- u ( α ) ⟩ .
Sostituendo in e usando la linearità del prodotto interno, otteniamou ( α ) = α y^
⟨ y- u ( α ) , y- u ( α ) ⟩ = ( 1 - α )2⟨ y, y⟩ + 2 α ( 1 - α ) ⟨ y, y- y^⟩ + Α2⟨ y- y^, y- y^⟩ .
Osservalo
- ⟨ y, y⟩ = N per ipotesi,
- ⟨ y, y- y^⟩ = ⟨ Y- y^, y- y^⟩ + ⟨ Y^, y- y^⟩ = ⟨ Y- y^, y- y^⟩
- ⟨ y- y^, y- y^⟩ = R S S
Mettendo tutto insieme, noterai che siamo arrivati
ρ^j( α ) = ( 1 - α ) λ( 1 - α )2+ α ( 2 - α )NR S S-----------------√= ( 1 - α ) λ( 1 - α )2( 1 - R S SN) + 1NR S S---------------------√
1 - R S SN= 1N( ⟨ Y, y, ⟩ - ⟨ y- y^, y- y^⟩ ) ≥ 0ρ^j( α )αρ^j( α ) ↓ 0α ↑ 1
Epilogo : concentrati sulle idee qui. Ce n'è davvero solo uno. Il lemma dell'ortogonalità fa quasi tutto il lavoro per noi. Il resto è solo algebra, notazione e capacità di far funzionare questi ultimi due.