Connessione tra formulazioni Lazo


9

Questa domanda potrebbe essere stupida, ma ho notato che ci sono due diverse formulazioni della regressione del Lazo . Sappiamo che il problema del lazo è di minimizzare l'obiettivo costituito dalla perdita quadrata più il termine di penalità -1, espresso come segue, L

minβyXβ22+λβ1

Ma spesso ho visto che lo stimatore Lazo può essere scritto come

β^n(λ)=argminβ{12nyXβ22+λβ1}

La mia domanda è: sono l'equivalente? Da dove viene il termine 12n ? Le connessioni tra le due formulazioni non sono ovvie per me.

[Aggiornamento] Immagino che un'altra domanda che dovrei porre è,

Perché c'è la seconda formulazione? Qual è il vantaggio, teoricamente o computazionalmente, di formulare il problema in quel modo?


2
Se si imposta nella seconda formulazione uguale a volte il nella prima formulazione, la funzione obiettivo nella seconda formulazione è volte la funzione obiettivo nella prima formulazione. In effetti, hai semplicemente modificato le unità di misura della perdita. Come pensi che cambierebbe i valori ottimali di ? λ1/(2n)λ1/(2n)β
whuber

Grazie, @Whuber. Questo ha senso per me. Allora perché esiste quest'ultima formulazione? Qual è il vantaggio, teoricamente o computazionalmente, di formulare il problema in quel modo?
Aaron Zeng,

Risposte:


10

Sono davvero equivalenti poiché puoi sempre riscalare (vedi anche il commento di @ whuber). Da un punto di vista teorico, è una questione di convenienza, ma per quanto ne so non è necessario. Dal punto di vista computazionale, in realtà trovo il piuttosto fastidioso, quindi di solito uso la prima formulazione se sto progettando un algoritmo che utilizza la regolarizzazione.λ1/(2n)

Un po 'di retroscena: quando ho iniziato a conoscere i metodi penalizzati, mi sono infastidito portando il giro ovunque nel mio lavoro, quindi ho preferito ignorarlo - ha anche semplificato alcuni dei miei calcoli. A quel tempo il mio lavoro era principalmente computazionale. Più recentemente ho svolto un lavoro teorico e ho trovato il indispensabile (anche vs., diciamo, ).1/(2n)1/(2n)1/n

Maggiori dettagli: quando provi ad analizzare il comportamento del Lazo in funzione della dimensione del campione , devi spesso fare i conti con somme di variabili casuali iid, e in pratica è generalmente più conveniente analizzare tali somme dopo la normalizzazione di - -pensi la legge di grandi numeri / teorema del limite centrale (o se vuoi ottenere fantasia, concentrazione della misura e teoria del processo empirico). Se non hai il termine di fronte alla perdita, alla fine finisci per riscalare qualcosa alla fine dell'analisi, quindi è generalmente più bello averlo lì per cominciare. Il è conveniente perché annulla alcuni fastidiosi fattori dinn1/n1/22 nell'analisi (ad es. quando si prende la derivata del termine di perdita quadrata).

Un altro modo di pensare a questo è che quando facciamo la teoria, siamo generalmente interessati al comportamento delle soluzioni all'aumentare di - cioè non è una quantità fissa. In pratica, quando eseguiamo il Lazo su alcuni set di dati fissi, viene effettivamente corretto dal punto di vista dell'algoritmo / dei calcoli. Quindi avere il fattore di normalizzazione extra davanti non è poi così utile.nnn

Questi possono sembrare fastidiosi argomenti di convenienza, ma dopo aver trascorso abbastanza tempo a manipolare questo tipo di disuguaglianze, ho imparato ad amare l' .1/(2n)


3
Quando ti rendi conto a cosa servono quelle costanti normalizzanti, inizi a vederle ovunque .
Matthew Drury,

Grazie per questa spiegazione Siamo così orgogliosi di leggere le tue fantastiche esperienze in questo dominio. Grazie ancora
Christina,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.