Perché il termine di regolarizzazione * viene aggiunto * alla funzione di costo (anziché moltiplicata, ecc.)?


51

Ogni volta che viene utilizzata la regolarizzazione, viene spesso aggiunta alla funzione di costo, come nella seguente funzione di costo. Questo ha senso intuitivo per me poiché minimizza il funzione di costo significa minimizzare l'errore (il termine a sinistra) e minimizzare allo stesso tempo l'entità dei coefficienti (il termine a destra) (o almeno bilanciare le due minimizzazioni).

J(θ)=12(yθXT)(yθXT)T+αθ22

La mia domanda è: perché questo termine di regolarizzazione αθ22 aggiunto alla funzione di costo originale e non moltiplicato o qualcos'altro che mantiene lo spirito della motivazione alla base dell'idea di regolarizzazione? È perché se semplicemente aggiungiamo il termine su di esso è sufficientemente semplice e ci consente di risolverlo analiticamente o c'è qualche motivo più profondo?


1
Un altro argomento è attraverso il teorema del rappresentante,
jkabrg

2
moltiplicatore lagrangiano
Haitao Du,

9
Se hai più variabili indipendenti delle osservazioni allora potresti essere in grado di ottenere 12(yθXT)(yθXT)T per azzerare diversi modi, quindi moltiplicare per nulla aiuta a distinguere un modello utile
Henry,

Risposte:


47

Ha una bella intuizione nel quadro bayesiano. Si consideri che la funzione di costo regolarizzato J ha un ruolo simile alla probabilità di una configurazione di parametro θ date le osservazioni X,y . Applicando il teorema di Bayes, otteniamo:

P(θ|X,y)=P(X,y|θ)P(θ)P(X,y).

Prendendo il registro dell'espressione ci dà:

logP(θ|X,y)=logP(X,y|θ)+logP(θ)logP(X,y).

Ora, supponiamo che sia il 1 log-posteriore negativo , . Poiché l'ultimo termine non dipende da , possiamo ometterlo senza modificare il minimo. Ti rimangono due termini: 1) il termine di verosimiglianza seconda di e 2) il termine precedente seconda della sola . Questi due termini corrispondono esattamente al termine dei dati e al termine di regolarizzazione nella formula.J(θ)logP(θ|X,y)θlogP(X,y|θ)XylogP(θ)θ

Puoi andare ancora oltre e mostrare che la funzione di perdita che hai pubblicato corrisponde esattamente al seguente modello:

P(X,y|θ)=N(y|θX,σ12),
P(θ)=N(θ|0,σ22),

dove i parametri provengono da una distribuzione gaussiana a media zero e le osservazioni hanno rumore gaussiano a media zero. Per maggiori dettagli vedi questa risposta .θy


1 Negativo poiché si desidera massimizzare la probabilità ma minimizzare il costo.


5
Sono un po 'insoddisfatto di questa risposta perché fa solo ondeggiare la corrispondenza tra la funzione di costo e il log-posteriore. Se il costo non corrispondesse al log-posteriore ma piuttosto al posteriore stesso, concluderemmo che la regolarizzazione dovrebbe essere moltiplicata per il costo non regolarizzato (come richiesto dall'OP). - Per giustificare correttamente questa risposta, dovresti giustificare perché è il log-posteriore che stiamo equiparando al costo. (In qualche modo hai a che fare con "vai oltre", ma a quel punto diventi un po 'mosso a mano.)
RM

1
@RM, punto valido. C'è una ragione: è perché le funzioni di perdita standard utilizzate nell'apprendimento automatico corrispondono al log-posteriore piuttosto che al posteriore stesso. Perché? Perché usano la minimizzazione del rischio empirico; e le funzioni di perdita standard di solito assumono la forma dove è una funzione di perdita che ha un'interpretazione sensata come probabilità log-posteriore. (Sospetto che tu lo sappia, ma lo sto solo dicendo per gli altri visitatori.)logP(X1,,Xn,y1,,yn|θ)=ilogP(Xi,yi|θ)if(Xi,yi,θi)f
DW,

@RM Se hai qualche costo potresti sempre ridefinire il tuo problema in termini di . In altre parole, qualunque sia la tua funzione di costo, definisce una distribuzione basata su divisa per una costante normalizzante che puoi ignorare quando usi i metodi MCMC. Il fatto che si possa sempre ripetere in termini di esponenziale è molto importante per esempio ricottura simulata, campionatori MCMC, ecc.CC=explnCexplnC
ely,

@RM, ad esempio, consideriamo questo articolo di Jun Liu (e c'è un commento simile nel libro MCMC di Liu), dove nella pagina 3 in basso si dice "Let essere la distribuzione di probabilità target sotto esame (presumibilmente tutti i pdf possono essere scritti in questo modulo) "(enfasi aggiunta). Quindi dal punto di vista bayesiano in cui la porzione del posteriore definita dal modello di probabilità sarebbe questa funzione di perdita, questa decomposizione bayesiana per questa risposta sarebbe del tutto generale. π(x)=cexph(x)
ely,

Grazie per la risposta! Sto cercando di capirlo "all'inizio" del tuo post: che cosa stai affermando esattamente ha una buona intuizione nel quadro bayesiano? il motivo fondamentale per cui l'aggiunta di sanzioni dà buoni stimatori? o il motivo storico (e non statistico) per cui le persone usano questi stimatori additivi? (Mentre stavo cercando di suggerire il mio fraseggio, penso che la tua risposta affronti il ​​motivo storico piuttosto che un motivo statistico.)
user795305

34

Jan e Cagdas danno una buona ragione bayesiana, interpretando il regolarizzatore come un precedente. Eccone alcuni non bayesiani:

  • Se il tuo obiettivo non regolamentato è convesso e aggiungi un regolarizzatore convesso, il tuo obiettivo totale sarà comunque convesso. Questo non sarà vero se lo moltiplichi o la maggior parte degli altri metodi di combinazione. L'ottimizzazione convessa è davvero molto bella rispetto all'ottimizzazione non convessa; se la formulazione convessa funziona, è meglio farlo.

  • A volte porta a una forma chiusa molto semplice, poiché menzioni wpof sono il caso della regressione della cresta.

  • Se pensi al problema che "veramente" vuoi risolvere come un problema con un forte vincolo allora il suo doppio Lagrange è il problema Sebbene non sia necessario utilizzare la dualità di Lagrange, si capisce molto al riguardo.

    minθ:c(θ)0J(θ),
    minθJ(θ)+λc(θ).
  • Come menzionato ogogmad , il teorema del rappresentante si applica al caso di una penalità aggiuntiva: se si desidera ottimizzare su un intero kernel riproducente spazio di funzioni , allora sappiamo che la soluzione all'ottimizzazione su tutto lo spazio trova in un semplice sottospazio di dimensioni finite per molte perdite ; Non so se questo sarebbe valido per un regolarizzatore moltiplicativo (anche se potrebbe). Questa è la base delle SVM del kernel.fH

    minfHJ(f)+λfH2
    J
  • Se stai facendo un apprendimento profondo o qualcosa di non convesso: le perdite additive danno semplici gradienti additivi. Per il semplice regolarizzatore hai dato, diventa un semplice decadimento del peso . Ma anche per un regolarizzatore più complicato, dire che il WGAN-GP perdita di s' è più facile per la backpropagation calcolare i gradienti quando deve solo considerare la somma della perdita e il regolarizzatore complicato (considerando le cose separatamente), invece di dover fare la regola del prodotto.L2

    x,yfθ(x)fθ(y)the loss+λE^αUniform(0,1)(fθ(αx+(1α)y)1)2the regularizer,
  • Le perdite additive sono anche suscettibili al famoso algoritmo di ottimizzazione ADMM e ad altri algoritmi basati sulla "decomposizione".

Nessuna di queste sono regole rigide, e in effetti a volte un regolarizzatore moltiplicativo (o qualche altro) potrebbe funzionare meglio (come sottolinea Ogogad ). (In effetti, proprio l'altro giorno ho presentato un documento su come qualcosa che potresti interpretare come un regolarizzatore moltiplicativo fa meglio dell'additivo WGAN-GP sopra!) Ma spero che questo aiuti a spiegare perché i regolarizzatori additivi sono "i valori predefiniti".


2
+1. Buona fortuna con la tua richiesta [presumibilmente NIPS]!
ameba dice di reintegrare Monica

13

Vuoi minimizzare entrambi i termini nella funzione obiettivo. Pertanto, è necessario disaccoppiare i termini. Se moltiplichi i termini puoi avere un termine grande e l'altro molto basso. Quindi, si finisce ancora con un valore basso della funzione obiettivo, ma con un risultato indesiderabile.

Potresti finire con un modello con la maggior parte delle variabili vicine allo zero senza potere predittivo.

inserisci qui la descrizione dell'immagine inserisci qui la descrizione dell'immagine

La funzione obiettivo, che è la funzione da minimizzare, può essere costruita come la somma della funzione di costo e dei termini di regolarizzazione.

Nel caso in cui entrambi siano indipendenti l'uno dall'altro, si ottengono i valori illustrati nella prima figura per l'obiettivo. Vedi in caso di somma, c'è solo un minimo a (0, 0). Nel caso del prodotto hai ambiguità. Hai un'intera iper-superficie uguale a zero in (x = 0 o y = 0). Quindi, l'algoritmo di ottimizzazione può finire ovunque a seconda della tua inizializzazione. E non può decidere quale soluzione sia migliore.


10

Puoi provare altre operazioni binarie ( ) e vedere come si confrontano.max,min,×

Il problema con e è che se l'errore è , la penalità regolarizzata finirà per essere . Ciò consente al modello di adattarsi eccessivamente.min×00

Il problema con è che si finisce per ridurre al minimo il "più duro" delle due penalità (errore di allenamento o regolarizzazione) ma non l'altro.max

Al contrario, è semplice e funziona.+

Potresti chiedere perché non altre operazioni binarie? Non ci sono argomenti che potrebbero escluderli, quindi perché non davvero?


8

Penso che tu abbia una domanda valida. Per darti una risposta adeguata dovrai capire la natura probabilistica del problema.

In generale, il problema che stiamo cercando di risolvere è il seguente: Dati dati qual è la distribuzione di ipotesi che spiega questi dati. Quando diciamo ipotesi intendiamo un PDF (almeno in questo contesto). E una distribuzione di ipotesi è un PDF di PDF, ovvero .Dp(H|D)

  1. p(H|D) è una distribuzione su ipotesi dato . Se riusciamo a trovarlo, possiamo selezionarne una tra queste ipotesi, ad esempio quella con la più alta probabilità, oppure possiamo scegliere di fare una media su tutte. Un approccio un po 'più semplice è quello di attaccare il problema da un'altra direzione usando il Teorema di Bayes.D

    p(H|D)=p(D|H)×p(H)p(D)
  2. p(D|H) è una delle ipotesi, è anche chiamata verosimiglianza. è la distribuzione delle ipotesi nel nostro universo di ipotesi prima di osservare i dati. Dopo aver osservato i dati, aggiorniamo le nostre convinzioni.p(H)

  3. p(D) è la media delle ipotesi prima di aggiornare le nostre convinzioni.

Ora se prendiamo il di entrambi i lati dell'equazione di Bayes otteniamo:log

log[p(H|D)]=log[p(D|H)]log[p(H)]+log[p(D)]

Di solito è difficile da calcolare. La cosa buona è che non influisce sul risultato. È semplicemente una costante di normalizzazione.p(D)

Ora, ad esempio, se la nostra serie di ipotesi è un gruppo di gaussiani con dove non conosciamo , ma supponiamo di conoscere (o almeno supponiamo che sia una costante) e inoltre le stesse ipotesi sono distribuite come gaussiane con quindi collegare tutto quanto sopra sembra qualcosa del tipo:p(D|H)p(y|X,θ)N(θX,σ)θσp(H)=p(θ)N(0,α1I)

log[p(H|D)]=bunch of constants+12(yθX)2+12α||θ||2+constant

Ora, se minimizziamo questa espressione, troviamo l'ipotesi con la più alta probabilità. Le costanti non influiscono sulla minimizzazione. Questa è l'espressione nella tua domanda.

Il fatto che abbiamo usato i gaussiani non cambia il fatto che il termine di regolarizzazione sia aggiuntivo. Deve essere additivo (in termini di registro o moltiplicativo in probabilità), non c'è altra scelta. Ciò che cambierà se utilizziamo altre distribuzioni sono i componenti dell'aggiunta. La funzione di costo / perdita fornita è ottimale per uno scenario specifico di gaussiani.


Ehi Cagdas, grazie per la spiegazione. Non ho capito la trasformazione dell'ultima equazione sull'RHS. Puoi indicarmi qualche risorsa per capire meglio quella parte
Itachi,

7

Ridge è una formulazione molto conveniente. Contrariamente alle risposte probabilistiche, queste risposte non danno alcuna interpretazione della stima ma spiegano invece perché la cresta sia una formulazione antica e ovvia.

Nella regressione lineare, le equazioni normali danno θ^=(XTX)1XTy

Ma la matrice volte non è invertibile; un modo per regolare è aggiungendo un piccolo elemento alla diagonale: .XTXXTX+αI

Questo dà la soluzione: ; quindi non risolve il problema originale ma invece il problema della cresta.θ~=(XTX+αI)1XTyθ~


3
Si prega di specificare le risposte a cui ci si riferisce. L'ordinamento si sposterà man mano che i voti si accumulano, quindi "sopra" è intrinsecamente ambiguo.
gung - Ripristina Monica

1

Penso che ci sia una ragione più intuitiva per cui non possiamo moltiplicare per il termine di regolarizzazione.

Consente di portare la nostra funzione di penalità alla normale funzione di penalità moltiplicata per un termine di regolarizzazione come suggerito da te.

J(θ)=(12(yθXT)(yθXT)T)αθ22

Qui creiamo un minimo globale della funzione di penalità in cui . In questo caso il nostro modello può produrre errori elevati tra la previsione e i dati ma non importa, se i pesi dei parametri del modello sono tutti zero la nostra funzione di penalità è zero .αθ22=0J(θ=0)=0

Poiché, a meno che il nostro modello non sia completamente perfetto, il termine non può mai essere zero (la probabilità che esista un insieme θ rendere il nostro modello "perfetto" è trascurabile per i dati reali), quindi il nostro modello dovrebbe sempre tendere ad allenarsi verso la soluzione θ = 0.(12(yθXT)(yθXT)T)

Questo è ciò che restituirà a meno che non si blocchi in un minimo locale da qualche parte.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.