Cos'è la minimizzazione energetica nell'apprendimento automatico?


14

Stavo leggendo dell'ottimizzazione per un problema male posto nella visione artificiale e ho trovato la spiegazione di seguito sull'ottimizzazione su Wikipedia. Quello che non capisco è, perché chiamano questa ottimizzazione " Riduzione al minimo dell'energia " in Computer Vision?

Un problema di ottimizzazione può essere rappresentato nel modo seguente:

Dato: una funzione f:AR da alcuni set ai numeri realiA

Ricerca: un elemento in tale che per tutti in ("minimizzazione") o tale che f (x_0) ≥ f (x) per tutti x in A ("massimizzazione") .x0Af(x0)f(x)xAf(x0)f(x)xA

Tale formulazione è chiamata problema di ottimizzazione o problema di programmazione matematica (un termine non direttamente correlato alla programmazione del computer, ma ancora in uso, ad esempio, nella programmazione lineare - vedere la storia di seguito). Molti problemi reali e teorici possono essere modellati in questo quadro generale. I problemi formulati usando questa tecnica nei campi della fisica e della visione al computer possono riferirsi alla tecnica come minimizzazione dell'energia, parlando del valore della funzione f come rappresentante dell'energia del sistema che viene modellato.

Risposte:


7

I modelli basati sull'energia sono un framework unificato per rappresentare molti algoritmi di machine learning. Interpretano l'inferenza come minimizzare una funzione energetica e l'apprendimento come minimizzare una perdita funzionale.

La funzione energia è una funzione della configurazione delle variabili latenti e della configurazione degli ingressi fornita in un esempio. Inferenza significa in genere trovare una configurazione a bassa energia o campionare dalla possibile configurazione in modo che la probabilità di scegliere una data configurazione sia una distribuzione di Gibbs.

La perdita funzionale è una funzione dei parametri del modello dati molti esempi. Ad esempio, in un problema di apprendimento supervisionato, la perdita è l'errore totale agli obiettivi. Talvolta viene chiamato "funzionale" perché è una funzione della funzione (parametrizzata) che costituisce il modello.

Documento principale:

Y. LeCun, S. Chopra, R. Hadsell, M. Ranzato e FJ Huang, "Un tutorial sull'apprendimento basato sull'energia", in Predicting Structured Data, MIT Press, 2006.

Vedi anche:

LeCun, Y., & Huang, FJ (2005). Funzioni di perdita per l'addestramento discriminatorio di modelli basati sull'energia. In Atti del 10 ° Workshop internazionale sull'intelligenza artificiale e la statistica (AIStats'05). Estratto da http://yann.lecun.com/exdb/publis/pdf/lecun-huang-05.pdf

Ranzato, M., Boureau, Y.-L., Chopra, S., & LeCun, Y. (2007). Un quadro unificato basato sull'energia per l'apprendimento senza supervisione. Proc. Conferenza su AI e statistiche (AI-Stats). Estratto da http://dblp.uni-trier.de/db/journals/jmlr/jmlrp2.html#RanzatoBCL07


3
Puoi ampliare il significato di "interpretano l'inferenza come minimizzare una funzione energetica e apprendere come minimizzare una funzione di perdita"? In che modo una funzione energetica è diversa da una funzione di perdita?
Cliff AB,

Potresti per favore elaborare la tua risposta
iamprem

@CliffAB Spero che sia più chiaro?
Neil G,

@NeilG: a dire il vero, sono ancora leggermente confuso. Per me, sembra che la "funzione energetica" sia essenzialmente la stessa cosa della funzione di probabilità nelle statistiche. È un'interpretazione ragionevole o mi sto perdendo qualcosa di più sottile?
Cliff AB,

@CliffAB: la funzione energetica può essere la probabilità logaritmica, nel qual caso l'energia esponenziale totale è una. Tuttavia, ciò non è nemmeno necessario: i modelli non probabilistici basati sull'energia non si preoccupano di questa normalizzazione, il che può rendere l'apprendimento più efficiente dei modelli probabilistici. Questo perché evita di valutare costosi integrali nello spazio di configurazione.
Neil G,

2

Nella letteratura sul rilevamento del segnale, l'energia di un segnale xt è definita come

E=Σxt2

Quando predire qualche risposta y da alcune caratteristiche x, un modo molto comune e semplice di procedere è di minimizzare la somma dei quadrati degli errori

SSE=Σ(yy^)2
dove y è la risposta montato. Notare la somiglianza? L'SSE è energia. Questa energia è minimizzata dai parametri montati.y^


1
Penso che stai confondendo la perdita con l'energia
Neil G

Sto usando la definizione standard di energia dall'elaborazione del segnale . Suppongo che le persone di informatica / machine learning tendano a ridefinire i termini. Io vengo da statistiche e di elaborazione del segnale di fondo
stan

La tua prima formula è una funzione energetica. La seconda formula è la funzione di perdita poiché non è una funzione della configurazione.
Neil G

@Neil Sono sicuro che stai usando correttamente la terminologia come definita negli articoli che hai citato. E 'solo una terminologia diversa da quello che sono abituato a dove SSE è l'energia
stan
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.