Ho capito come la regressione della cresta restringe geometricamente i coefficienti verso zero. Inoltre so come dimostrarlo nello speciale "caso ortonormale", ma sono confuso su come funziona nel caso generale tramite "decomposizione spettrale".
Ho capito come la regressione della cresta restringe geometricamente i coefficienti verso zero. Inoltre so come dimostrarlo nello speciale "caso ortonormale", ma sono confuso su come funziona nel caso generale tramite "decomposizione spettrale".
Risposte:
La domanda sembra richiedere una dimostrazione che la regressione della cresta riduce le stime dei coefficienti verso zero, usando una decomposizione spettrale. La decomposizione spettrale può essere intesa come una facile conseguenza della decomposizione del valore singolare (SVD). Pertanto, questo post inizia con SVD. Lo spiega in termini semplici e poi lo illustra con importanti applicazioni. Quindi fornisce la dimostrazione (algebrica) richiesta. (L'algebra, ovviamente, è identica alla dimostrazione geometrica; è semplicemente scritta in una lingua diversa.)
La fonte originale di questa risposta può essere trovata nelle mie note sul corso di regressione . Questa versione corregge alcuni errori minori.
Qualsiasi matrice X , con p ≤ n , può essere scritta X = U D V ′ dove
è unamatrice n × p .
è unamatrice p × p .
è unamatricediagonale p × p .
I criteri (1) e (2) affermano che sia che V sono matrici ortonormali . Possono essere ordinatamente riassunti dalle condizioni
Di conseguenza (quella rappresenta una rotazione), anche V V ′ = 1 p . Questo sarà usato nella derivazione della regressione della cresta di seguito.
Può semplificare le formule. Funziona sia algebricamente che concettualmente. Ecco alcuni esempi.
Considera la regressione dove, come al solito, ε sono indipendenti e identicamente distribuiti secondo una legge che ha zero aspettativa e varianza finita σ 2 . La soluzione dei minimi quadrati tramite il normale Equazioni è β = ( X ' X ) - 1 x ' y . Applicare SVD e semplificare il risultante pasticcio algebrico (che è facile) fornisce una buona visione:
L'unica differenza tra questo e è che vengono utilizzati i reciproci degli elementi di D ! In altre parole, l '"equazione" y = X β è risolta "invertendo" X : questa pseudo-inversione annulla le rotazioni U e V ′ (semplicemente trasponendole) e annulla la moltiplicazione (rappresentata da D ) separatamente in ogni principale direzione.
Per riferimento futuro, si noti che "ruotato" stime β sono combinazioni lineari delle "ruotato" risposte U ' y . I coefficienti sono inverse degli elementi (positivi) diagonali di D , pari a d - 1 i i .
Ricordiamo che la covarianza delle stime è Usando SVD, questo diventa σ 2 ( V D 2 V ′ ) - 1 = σ 2 V D - 2 V ′ . In altre parole, la covarianza si comporta come quella di k variabili ortogonali , ognuna con varianze d 2 i i
La matrice del cappello è Per mezzo del risultato precedente possiamo riscriverlo come H = ( U D V ′ ) ( V D - 1 U ′ ) = U U ′ . Semplice!
Poiché e X X ′ = U D V ′ V D U ′ = U D 2 U ′ , è immediato che
SVD può diagnosticare e risolvere problemi di collinearità.