Nella regressione della cresta, la funzione obiettivo da minimizzare è:
Questo può essere ottimizzato usando il metodo del moltiplicatore di Lagrange? O è una differenziazione diretta?
Nella regressione della cresta, la funzione obiettivo da minimizzare è:
Questo può essere ottimizzato usando il metodo del moltiplicatore di Lagrange? O è una differenziazione diretta?
Risposte:
Esistono due formulazioni per il problema della cresta. Il primo è
soggetto a
Questa formulazione mostra il vincolo dimensionale sui coefficienti di regressione. Nota cosa implica questo vincolo; stiamo forzando i coefficienti a trovarsi in una palla attorno all'origine con raggio .
La seconda formulazione è esattamente il tuo problema
che può essere vista come la formulazione del moltiplicatore di Largrange. Si noti che qui è un parametro di ottimizzazione e valori maggiori di esso porteranno a una riduzione maggiore. Puoi procedere a differenziare l'espressione rispetto a e ottenere il noto stimatore della cresta
Le due formulazioni sono completamente equivalenti , poiché esiste una corrispondenza uno a uno tra e .
Vorrei approfondire un po 'quello. Immagina di trovarti nel caso ortogonale ideale, . Questa è una situazione altamente semplificata e non realistica, ma possiamo investigare lo stimatore un po 'più da vicino, quindi abbiate pazienza. Considera cosa succede all'equazione (1). Lo stimatore della cresta si riduce a
come nel caso ortogonale, lo stimatore OLS è dato da . Guardando a questo componente ora otteniamo
Si noti quindi che ora il restringimento è costante per tutti i coefficienti. Questo potrebbe non valere nel caso generale e in effetti si può dimostrare che i restringimenti differiranno ampiamente se ci sono degenerazioni nella matrice .
Ma torniamo al problema dell'ottimizzazione vincolata. Secondo la teoria KKT , una condizione necessaria per l'ottimalità è
quindi o o (in questo caso diciamo che il vincolo è vincolante). Se non ci sono penalità e siamo di nuovo nella normale situazione OLS. Supponiamo quindi che il vincolo sia vincolante e siamo nella seconda situazione. Usando la formula in (2), abbiamo quindi
da dove otteniamo
la relazione uno a uno precedentemente rivendicata. Mi aspetto che questo sia più difficile da stabilire nel caso non ortogonale, ma il risultato è valido a prescindere.
Guarda di nuovo (2) e vedrai che manca ancora . Per ottenere un valore ottimale, è possibile utilizzare la convalida incrociata o guardare la traccia della cresta. Quest'ultimo metodo prevede la costruzione di una sequenza di in (0,1) e la visualizzazione di come cambiano le stime. Quindi selezionare che li stabilizza. Questo metodo è stato suggerito nel secondo dei riferimenti seguenti ed è il più antico.
Riferimenti
Hoerl, Arthur E. e Robert W. Kennard. "Regressione della cresta: stima distorta per problemi non ortogonali." Technometrics 12.1 (1970): 55-67.
Hoerl, Arthur E. e Robert W. Kennard. "Regressione della cresta: applicazioni a problemi non ortogonali." Technometrics 12.1 (1970): 69-82.
Il mio libro Regressione Modeling Strategies approfondisce l'uso dell'AIC efficace per la scelta di . Ciò deriva dalla probabilità logaritmica penalizzata e dagli effettivi gradi di libertà, quest'ultimo essendo una funzione di quante variazioni di sono ridotte dalla penalizzazione. Una presentazione su questo è qui . Il pacchetto R trova che ottimizza l'AIC efficace e consente anche parametri multipli di penalità (ad esempio, uno per gli effetti principali lineari, uno per gli effetti principali non lineari, uno per gli effetti di interazione lineare e uno per gli effetti di interazione non lineare).rms
pentrace
Non lo faccio analiticamente, ma piuttosto numericamente. Di solito complotto RMSE vs. λ come tale:
Figura 1. RMSE e la costante λ o alfa.