Ho diverse domande riguardanti la penalità della cresta nel contesto dei minimi quadrati:
1) L'espressione suggerisce che la matrice di covarianza di X è ridotta verso una matrice diagonale, il che significa che (supponendo che le variabili siano standardizzate prima della procedura) verrà ridotta la correlazione tra le variabili di input. Questa interpretazione è corretta?
2) Se si tratta di un'applicazione di restringimento, perché non è formulata nelle righe di , supponendo che in qualche modo possiamo limitare lambda a [0,1] range con una normalizzazione .
3) Quale può essere una normalizzazione per modo che possa essere limitata a un intervallo standard come [0,1].
4) L'aggiunta di una costante alla diagonale influirà su tutti gli autovalori. Sarebbe meglio attaccare solo i valori singolari o quasi singolari? È equivalente all'applicazione di PCA a X e al mantenimento dei componenti principali N-top prima della regressione o ha un nome diverso (poiché non modifica il calcolo della covarianza incrociata)?
5) Possiamo regolarizzare la covarianza incrociata o ha qualche utilità, ovvero
dove un piccolo abbasserà la covarianza incrociata. Ovviamente questo riduce allo stesso modo tutti i , ma forse esiste un modo più intelligente come il limite hard / soft a seconda del valore di covarianza.