Questo riguarda la varianza
OLS fornisce quello che viene chiamato il miglior stimatore lineare parziale (BLU) . Ciò significa che se si prende qualsiasi altro stimatore imparziale, è inevitabile che abbia una varianza maggiore rispetto alla soluzione OLS. Quindi perché mai dovremmo considerare qualcos'altro?
Ora il trucco con la regolarizzazione, come il lazo o la cresta, è quello di aggiungere un po 'di distorsione a turno per cercare di ridurre la varianza. Perché quando si stima il vostro errore di previsione, si tratta di una combinazione di tre cose :
E [ ( y- f^( x ) )2] = Bias [ f^( x ) ) ]2+ Var [ f^( x ) ) ] + σ2
L'ultima parte è l'errore irriducibile, quindi non abbiamo alcun controllo su questo. Utilizzando la soluzione OLS il termine di polarizzazione è zero. Ma potrebbe essere che il secondo termine sia ampio. Potrebbe essere una buona idea, (
se vogliamo buone previsioni ), aggiungere un po 'di pregiudizio e, si spera, ridurre la varianza.
Così che cosa è questo ? È la varianza introdotta nelle stime per i parametri nel modello. Il modello lineare ha la forma
y =Var [ f^( x ) ) ]
Per ottenere la soluzione OLS risolviamo il problema della minimizzazione
arg min β | | y - X β | | 2
Ciò fornisce la soluzione
β OLS = ( X T X ) - 1 x T y
Il problema di minimo per la regressione cresta è simile:
arg min β | | y - 2 + λ |
y = X β+ ϵ ,ϵ ∼ N( 0 , σ2io)
argminβ| | y - X β| |2
β^OLS= ( XTX )- 1XTy
Ora la soluzione diventa
β Ridge = ( X T X + λ I ) - 1 X T y
Quindi stiamo aggiungendo questo
λ I (chiamato la cresta) sulla diagonale della matrice che invertito. L'effetto di ciò sulla matrice
X T X è che si "
tira" il determinante della matrice lontano da zero. Quindi quando lo inverti, non ottieni enormi autovalori. Ma ciò porta a un altro fatto interessante, vale a dire che la varianza delle stime dei parametri diventa inferiore.
argminβ| | y - X β| |2+ λ | | β| |2λ > 0
β^Cresta= ( XTX +λI)- 1XTy
λ IXTX
Non sono sicuro di poter fornire una risposta più chiara di questa. Ciò a cui tutto si riduce è la matrice di covarianza per i parametri nel modello e l'entità dei valori in quella matrice di covarianza.
Ho preso la regressione della cresta come esempio, perché è molto più facile da trattare. Il lazo è molto più difficile e ci sono ancora ricerche in corso attive su questo argomento.
Queste diapositive forniscono ulteriori informazioni e questo blog contiene anche alcune informazioni rilevanti.
EDIT: Che cosa intendo dire aggiungendo la cresta il determinante viene " allontanato " da zero?
Si noti che la matrice XTX è una matrice simmetrica definita positiva. Si noti che tutte le matrici simmetriche con valori reali hanno autovalori reali. Inoltre, poiché è definito positivo, gli autovalori sono tutti maggiori di zero.
det ( XTX -tI) = 0
tdet ( XTX +λI- t io) = 0
det ( XTX -(t-λ)I) = 0
( t - λ )tiotio+ λλ
Ecco un po 'di codice R per illustrare questo:
# Create random matrix
A <- matrix(sample(10,9,T),nrow=3,ncol=3)
# Make a symmetric matrix
B <- A+t(A)
# Calculate eigenvalues
eigen(B)
# Calculate eigenvalues of B with ridge
eigen(B+3*diag(3))
Che dà i risultati:
> eigen(B)
$values
[1] 37.368634 6.952718 -8.321352
> eigen(B+3*diag(3))
$values
[1] 40.368634 9.952718 -5.321352
Quindi tutti gli autovalori vengono spostati esattamente di 3.
Puoi anche dimostrarlo in generale usando il teorema del cerchio di Gershgorin . Lì i centri dei cerchi contenenti gli autovalori sono gli elementi diagonali. Puoi sempre aggiungere "abbastanza" all'elemento diagonale per creare tutti i cerchi nel mezzo piano reale positivo. Tale risultato è più generale e non necessario per questo.