Perché non usiamo tassi di apprendimento non costanti per gradienti decenti per cose diverse dalle reti neurali?


14

La letteratura sull'apprendimento profondo è piena di trucchi intelligenti con l'uso di tassi di apprendimento non costanti nella discesa del gradiente. Cose come il decadimento esponenziale, RMSprop, Adagrad ecc. Sono facili da implementare e sono disponibili in ogni pacchetto di apprendimento profondo, ma sembrano essere inesistenti al di fuori delle reti neurali. c'è qualche ragione per questo? Se alle persone semplicemente non importa, c'è un motivo per cui non dobbiamo occuparci al di fuori delle reti neurali?


2
Penso che la ricerca per linea o il metodo della regione di fiducia siano tassi di apprendimento "non costanti".
Haitao Du

2
Esistono molti metodi a gradiente non costante sviluppati indipendentemente dalle NN. Barzilai-Borwein GD e Nesterov GD sono due esempi importanti.
Sycorax dice di ripristinare Monica

@Sycorax ma sono effettivamente utilizzati su base giornaliera al di fuori delle NN?
Tim

2
@ Tim non posso dirlo. Quando devo fare una ricerca locale al di fuori delle NN, ho il lusso di usare metodi del secondo ordine. Ma ero entusiasta di conoscere metodi GD più veloci per l'occasione che avrei potuto avere un trucco carino nella mia tasca posteriore.
Sycorax dice di ripristinare Monica

1
Vale la pena notare che (con mia sorpresa) mi sono imbattuto in casi in cui i GBM non usano tassi di apprendimento costanti, un po 'con sorpresa delle persone. Un esempio particolare è stato l'implementazione di DART su LightGBM. Mentre i documenti originali non usano un LR sempre più piccolo, l'implementazione effettiva lo fa di default.
usεr11852 dice Reinstate Monic il

Risposte:


16

Disclaimer: non ho molta esperienza con l'ottimizzazione al di fuori delle reti neurali, quindi la mia risposta sarà chiaramente distorta, ma ci sono diverse cose che svolgono un ruolo:

  • Le reti neurali (profonde) hanno molti parametri . Ciò ha diverse implicazioni:

    In primo luogo, in un certo senso esclude i metodi di ordine superiore semplicemente perché il calcolo dell'Assia e dei derivati ​​più elevati diventa impossibile. In altri domini, questo può essere un approccio valido migliore di qualsiasi modifica a SGD.

    In secondo luogo, sebbene SGD sia meraviglioso , tende ad essere impraticabilmente lento. Queste varianti SGD migliorate consentono principalmente un allenamento più veloce, mentre potenzialmente perdono alcune delle belle proprietà di SGD . In altri settori, il tempo di formazione SGD potrebbe non essere il collo di bottiglia, quindi i miglioramenti ottenuti accelerando potrebbero essere semplicemente trascurabili.

  • L'allenamento delle reti neurali (profonde) è un'ottimizzazione non convessa e non sono a conoscenza di risultati significativi di rilassamento convesso sul campo. A differenza di altri campi, le reti neurali non si concentrano su soluzioni ottimalmente dimostrabili a livello globale, il che porta a investire maggiori sforzi per migliorare le proprietà della superficie di perdita e il suo attraversamento durante l'ottimizzazione.

    In altri campi, l'utilizzo del rilassamento convesso e l'ottenimento di soluzioni ottimali a livello globale può essere al centro dell'interesse anziché dell'algoritmo di ottimizzazione, poiché una volta definito il problema come problema convesso, la scelta dell'algoritmo di ottimizzazione non può migliorare la qualità della soluzione .

Suppongo che questa risposta non copra tutti i possibili aspetti e sono anch'io curioso di conoscere altre opinioni.


Quindi in pratica stai dicendo che altri problemi sono molto più semplici, quindi non hai bisogno di trucchi e vaniglia SGD è abbastanza per loro?
Tim

3
Questo sta semplificando troppo il mio messaggio. 1) alcuni problemi possono utilizzare metodi di ordine superiore, senza necessità di SGD adattivo. 2) alcuni problemi non possono beneficiare del miglioramento SGD a causa della legge di Amdahl. 3) alcuni problemi possono offrire soluzioni convesse e la difficoltà principale è rappresentarle come convesse. Nessuno di questi afferma che altri problemi sono molto più semplici dell'apprendimento profondo, piuttosto spiega perché il miglioramento della SGD non è al centro della loro attenzione.
Jan Kukacka,

Un possibile punto 4: se prendessi qualche altro metodo e rendessi abbastanza complesso (alta dimensione, non lineare, non convesso) per beneficiare di sofisticati metodi di discesa del gradiente, verrebbe probabilmente chiamato una rete neurale.
Nathaniel

1
@JanKukacka Lo so, stavo cercando chiarimenti poiché la tua risposta era indiretta
Tim
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.