Sono davvero equivalenti poiché puoi sempre riscalare (vedi anche il commento di @ whuber). Da un punto di vista teorico, è una questione di convenienza, ma per quanto ne so non è necessario. Dal punto di vista computazionale, in realtà trovo il piuttosto fastidioso, quindi di solito uso la prima formulazione se sto progettando un algoritmo che utilizza la regolarizzazione.λ1/(2n)
Un po 'di retroscena: quando ho iniziato a conoscere i metodi penalizzati, mi sono infastidito portando il giro ovunque nel mio lavoro, quindi ho preferito ignorarlo - ha anche semplificato alcuni dei miei calcoli. A quel tempo il mio lavoro era principalmente computazionale. Più recentemente ho svolto un lavoro teorico e ho trovato il indispensabile (anche vs., diciamo, ).1/(2n)1/(2n)1/n
Maggiori dettagli: quando provi ad analizzare il comportamento del Lazo in funzione della dimensione del campione , devi spesso fare i conti con somme di variabili casuali iid, e in pratica è generalmente più conveniente analizzare tali somme dopo la normalizzazione di - -pensi la legge di grandi numeri / teorema del limite centrale (o se vuoi ottenere fantasia, concentrazione della misura e teoria del processo empirico). Se non hai il termine di fronte alla perdita, alla fine finisci per riscalare qualcosa alla fine dell'analisi, quindi è generalmente più bello averlo lì per cominciare. Il è conveniente perché annulla alcuni fastidiosi fattori dinn1/n1/22 nell'analisi (ad es. quando si prende la derivata del termine di perdita quadrata).
Un altro modo di pensare a questo è che quando facciamo la teoria, siamo generalmente interessati al comportamento delle soluzioni all'aumentare di - cioè non è una quantità fissa. In pratica, quando eseguiamo il Lazo su alcuni set di dati fissi, viene effettivamente corretto dal punto di vista dell'algoritmo / dei calcoli. Quindi avere il fattore di normalizzazione extra davanti non è poi così utile.nnn
Questi possono sembrare fastidiosi argomenti di convenienza, ma dopo aver trascorso abbastanza tempo a manipolare questo tipo di disuguaglianze, ho imparato ad amare l' .1/(2n)