Quale sarebbe un esempio di quando L2 è una buona funzione di perdita per calcolare una perdita posteriore?


9

La perdita di L2, insieme alla perdita di L0 e L1, sono tre funzioni di perdita "predefinite" molto comuni utilizzate quando si riassume un posteriore con la perdita minima prevista sul retro. Uno dei motivi è forse che sono relativamente facili da calcolare (almeno per le distribuzioni 1d), L0 risulta nella modalità, L1 nella mediana e L2 nella media. Quando insegno, posso inventare scenari in cui L0 e L1 sono funzioni di perdita ragionevoli (e non solo "predefinite"), ma sto lottando con uno scenario in cui L2 sarebbe una funzione di perdita ragionevole. Quindi la mia domanda:

A fini pedagogici, quale sarebbe un esempio di quando L2 è una buona funzione di perdita per calcolare una perdita posteriore minima?

Per L0 è facile inventare scenari dalle scommesse. Supponi di aver calcolato un numero posteriore sul numero totale di goal in una partita di calcio imminente e farai una scommessa in cui vinci $ se indovini correttamente il numero di goal e perdi altrimenti. Quindi L0 è una funzione di perdita ragionevole.

Il mio esempio L1 è un po 'inventato. Stai incontrando un amico che arriverà in uno dei tanti aeroporti e poi ti viaggerà in auto, il problema è che non sai quale aeroporto (e non puoi chiamare la tua amica perché è in aria). Dato un posteriore su quale aeroporto potrebbe atterrare, dov'è un buon posto per posizionarti in modo che la distanza tra lei e te sarà piccola, quando arriva? Qui, il punto che minimizza la perdita di L1 prevista sembra ragionevole, se si fanno le ipotesi semplificanti che la sua auto viaggerà a velocità costante direttamente nella propria posizione. Cioè, un'ora di attesa è due volte più grave di un'attesa di 30 minuti.


Avvertenza: L0 non provoca la modalità per problemi continui ....
Xi'an

Sì, lo so che è un po 'sciatto dire la modalità L0 ->.
Rasmus Bååth,

2
Guardando la legge del quadrato inverso, se hai diverse fonti di luce posizionate in modo tale che qualsiasi punto nello spazio che possiamo scegliere otterrà luce trascurabile da tutti tranne la fonte più vicina, usare la perdita di L2 equivarrebbe a voler minimizzare, diciamo, il numero di secondi per lume ricevuto. Non riesco a pensare al motivo per cui vorresti farlo, invece di massimizzare i lumen al secondo.
Statistico accidentale

Risposte:


4
  1. L2 è "facile". È quello che ottieni di default se fai metodi a matrice standard come regressione lineare, SVD, ecc. Fino a quando non avevamo i computer, L2 era l'unico gioco in città per molti problemi, motivo per cui tutti usano ANOVA, t-test, ecc. È anche più facile ottenere una risposta esatta usando la perdita di L2 con molti metodi più fantasiosi come i processi gaussiani piuttosto che ottenere una risposta esatta usando altre funzioni di perdita.

  2. Allo stesso modo, puoi ottenere la perdita di L2 usando esattamente un'approssimazione di Taylor del 2 ° ordine, il che non è il caso della maggior parte delle funzioni di perdita (ad es. Entropia incrociata). Ciò semplifica l'ottimizzazione con metodi del 2 ° ordine come il metodo di Newton. Molti metodi per gestire altre funzioni di perdita usano ancora i metodi per la perdita di L2 sottotitoli per lo stesso motivo (ad es. Minimi quadrati ripetutamente pesati, approssimazioni di Laplace annidate integrate).

  3. L2 è strettamente correlato alle distribuzioni gaussiane e il Teorema del limite centrale rende comuni le distribuzioni gaussiane. Se il tuo processo di generazione dei dati è (condizionatamente) gaussiano, allora L2 è lo stimatore più efficiente.

  4. La perdita di L2 si decompone bene, a causa della legge della varianza totale. Ciò rende alcuni modelli grafici con variabili latenti particolarmente facili da adattare.

  5. L2 penalizza in modo sproporzionato previsioni terribili. Questo può essere buono o cattivo, ma spesso è abbastanza ragionevole. Un'attesa di un'ora potrebbe essere quattro volte più grave di un'attesa di 30 minuti, in media, se fa perdere un sacco di appuntamenti a molte persone.


2
Hmm, quello che stavo cercando era più come una situazione decisionale in cui L2 sarebbe stata una perdita ragionevole. Come lo scenario simile ai due esempi nella mia domanda, ma per L2.
Rasmus Bååth,

1
@ RasmusBååth Non sono sicuro di un argomento per la quadratura esatta della perdita (a parte la sua connessione con i processi di generazione di dati gaussiani in # 3), ma # 5 è un argomento per una funzione di perdita accelerata di qualche tipo. Al secondo ordine, qualsiasi funzione di questo tipo corrisponderà alla perdita di L2.
David J. Harris,

@ DavidJ.Harris In realtà, # 5 non è corretto. Quello che faresti in questo caso è usare la perdita di abs L1 (xy) per ridurre al minimo la frustrazione = tempo². L'uso della perdita (xy) ² per tempo, come hai suggerito, in realtà ti darà un risultato non ottimale.
Íhor Mé,

@ ÍhorMé Penso di doverti fraintendere. Sembra che tu stia dicendo che il modo migliore per ridurre al minimo l' errore al quadrato è minimizzare la perdita assoluta e non la norma L2.
David J. Harris,

@ DavidJ.Harris Sì, stavo cercando di sottolineare che questo è un problema di minimizzazione della "cattiveria" (= tempo diff²) e non del tempo trascorso in attesa, essenzialmente, ma penso di aver frainteso inizialmente l'esperimento mentale. Ora che lo sto rileggendo, L2 è un modo legittimo per passare dalla minimizzazione della differenza di tempo alla minimizzazione della "cattiveria". Tuttavia, devo dire, è meglio che un programmatore identifichi prima quale "cattiveria" vuole minimizzare, quindi ottenga quel valore, quindi minimizza tramite L1. In questo caso si ottiene prima (time differ) ² quindi minimizzare la perdita di L1. Vai con L2 solo quando sai cosa stai facendo.
Íhor Mé,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.