La regressione di Ridge stima i parametri in un modello lineare by
Un teorema di esistenza per la regressione della cresta afferma che esiste sempre un parametro tale che l'errore quadratico medio di è strettamente più piccolo dell'errore quadratico medio di OLS stima . In altre parole, un valore ottimale di è sempre diverso da zero. Ciò è stato apparentemente provato per la prima volta in Hoerl e Kennard, nel 1970, e viene ripetuto in molti appunti di lezione che trovo online (ad esempio qui e qui ). La mia domanda riguarda le ipotesi di questo teorema:
Ci sono delle ipotesi sulla matrice di covarianza ?
Ci sono ipotesi sulla dimensionalità di ?
In particolare, il teorema è ancora vero se i predittori sono ortogonali (cioè è diagonale), o anche se ? Ed è ancora vero se ci sono solo uno o due predittori (diciamo, un predittore e un'intercettazione)?
Se il teorema non fa simili assunzioni e rimane vero anche in questi casi, allora perché la regressione della cresta è di solito consigliata solo nel caso di predittori correlati e mai (?) Raccomandata per una regressione semplice (cioè non multipla)?
Questo è legato alla mia domanda sulla visione unificata del restringimento: qual è la relazione (se presente) tra il paradosso di Stein, la regressione della cresta e gli effetti casuali nei modelli misti? , ma nessuna risposta chiarisce questo punto fino ad ora.