Selezione della penalità ottimale per il lazo


15

Esistono risultati analitici o documenti sperimentali riguardanti la scelta ottimale del coefficiente del termine di penalità 1 . Per ottimale intendo un parametro che massimizza la probabilità di selezionare il modello migliore o che minimizza la perdita attesa. Lo sto chiedendo perché spesso non è pratico scegliere il parametro per convalida incrociata o bootstrap, sia a causa di un gran numero di istanze del problema, sia a causa delle dimensioni del problema a portata di mano. L'unico risultato positivo di cui sono a conoscenza è Candes and Plan, selezione del modello quasi ideale di 1 minimizzazione .


2
Sei a conoscenza di documenti che stabiliscono risultati di coerenza per il lazo? Knight & Fu (2000), Yu & Zhao (2006) e vari articoli di Meinshausen.
cardinale

Sì, ma la mia domanda non riguarda la coerenza asintotica, che è l'argomento degli articoli che hai citato.
gappy

1
Tali articoli riguardano (principalmente) la coerenza della selezione dei modelli , che direi sia molto correlata alla domanda che hai posto. :)
cardinale

Risposte:


2

Teorema di verifica 5.1 di questo Bickel et al. . Una scelta statisticamente ottimale in termini di errore è (con alta probabilità), per una costante .y-y^(λ)22λ=UNσrumorelogpnUN>22


Questo non sembra del tutto adatto al conto poiché richiede di conoscere . In realtà, è proprio questo problema che motiva il lazo della radice quadrata ( arxiv.org/pdf/1009.5689.pdf )σnoioSe
user795305

5

Suppongo che tu sia principalmente interessato alla regressione, come nel documento citato, e non ad altre applicazioni della -penalty (lasso grafico, diciamo).1

Cp

Un altro posto da guardare è nel selettore di Dantzig: la stima statistica quando p è molto più grande di ne gli articoli di discussione nello stesso numero di Annals of Statistics. La mia comprensione è che risolvono un problema strettamente correlato alla regressione del lazo ma con una scelta fissa del coefficiente di penalità. Ma dai un'occhiata anche ai documenti di discussione.

Se non sei interessato alla previsione, ma alla selezione del modello, non sono a conoscenza di risultati simili. I modelli ottimali di previsione spesso comportano troppe variabili selezionate nei modelli di regressione. Nel documento Selezione della stabilità Meinshausen e Bühlmann presentano una tecnica di sottocampionamento più utile per la selezione dei modelli, ma potrebbe essere troppo impegnativa dal punto di vista computazionale per le vostre esigenze.


(+1) Tutti e tre questi articoli meritano una lettura attenta per coloro che sono interessati a questo argomento. La carta dei selettori di Dantzig ha dei bei calcoli matematici; tuttavia, non ho visto che ottiene molta trazione nelle applicazioni, né me lo aspetto. Penso, tra l'altro, che i percorsi di regolarizzazione molto rumorosi rendano nervose le persone e quindi, senza evidenti benefici sul lazo, lo rendono una vendita difficile.
cardinale

Hum, nota che sebbene il numero di coefficienti diversi da zero per un dato valore del parametro di regolarizzazione è una stima imparziale per i DOF a quel valore, questa stima è estremamente varianza.
Dohmatob,

1

Da quando questa domanda è stata posta, sono stati compiuti interessanti progressi. Ad esempio, considera questo documento

Chichignoud, M., Lederer, J., & Wainwright, M. (2016). Uno schema pratico e un algoritmo veloce per ottimizzare il lazo con garanzie di ottimalità. Journal of Machine Learning Research, 17, 1–17.

Propongono un metodo per selezionare il parametro di ottimizzazione LASSO con garanzie di campioni finiti dimostrabili per la selezione del modello. Come si dice nel documento, "Per gli schemi di calibrazione standard, tra cui la convalida incrociata, non sono disponibili garanzie comparabili in letteratura. In realtà, non siamo a conoscenza di garanzie di campioni finiti per gli schemi di calibrazione standard".


0

Questo non risponde alla tua domanda, ma: in un'impostazione di dati di grandi dimensioni, può essere opportuno ottimizzare il regolarizzatore utilizzando una singola divisione treno / test, invece di farlo 10 o più volte in validazione incrociata (o più per bootstrap). Le dimensioni e la rappresentatività del campione scelto per il devset determinano l'accuratezza della stima del regolarizzatore ottimale.

Nella mia esperienza la perdita tenuta è relativamente piatta su un intervallo di regolarizzazione sostanziale. Sono sicuro che questo fatto potrebbe non valere per altri problemi.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.