Ci sono studi che esaminano l'abbandono rispetto ad altre regolarizzazioni?


9

Sono stati pubblicati articoli che mostrano differenze nei metodi di regolarizzazione delle reti neurali, preferibilmente su domini diversi (o almeno set di dati diversi)?

Lo sto chiedendo perché al momento ho la sensazione che la maggior parte delle persone sembri usare solo il dropout per la regolarizzazione nella visione artificiale. Vorrei verificare se ci sarebbe un motivo (non) per utilizzare diversi modi di regolarizzazione.

Risposte:


3

Due punti:

  1. Il dropout viene di solito confrontato con gli insiemi di reti neurali. Sembra che abbia alcuni dei benefici prestazionali dell'allenamento e della media di diverse reti neurali.
  2. Il dropout è più facile da calibrare rispetto alla regolarizzazione. C'è solo un iperparametro che è il tasso di abbandono e le persone usano ampiamente 0,5 durante l'allenamento (e quindi 1,0 sulla valutazione ovviamente :)), vedi ad esempio questo esempio di TensorFlow .

Ad ogni modo, sono un po 'scettico nei confronti degli studi empirici sulle reti neurali. Ci sono troppi iperparametri per mettere a punto, dalla topologia della rete alla procedura di ottimizzazione della discesa del gradiente fino alle funzioni di attivazione e qualunque cosa tu stia testando come la regolarizzazione. Quindi, l'intera cosa è stocastica e di solito i guadagni in termini di prestazioni sono così piccoli che difficilmente è possibile verificare statisticamente le differenze. Molti autori non si preoccupano nemmeno di fare test statistici. Hanno solo una media di convalida incrociata e dichiarano che qualsiasi modello ha avuto il più alto decimale di punti per essere il vincitore.

Potresti trovare uno studio che promuove l'abbandono solo per essere contraddetto da un altro che promuove la regolarizzazione.

Penso che tutto si riduce alle preferenze estetiche. Dropout IMHO sembra più plausibile dal punto di vista biologico rispetto alla regolarizzazione. Sembra anche più facile da calibrare. Quindi, personalmente lo preferisco quando utilizzo un framework come TensorFlow. Se dobbiamo usare la nostra rete neurale, cosa che facciamo spesso, useremo la regolarizzazione perché era più facile da implementare.


0

Decisamente. Il documento dello stesso Creatore, Geoffrey Hinton. https://www.cs.toronto.edu/~hinton/absps/JMLRdropout.pdf leggerlo. Ma ti incoraggio a vedere la differenza da solo implementandola.


2
Il documento non confronta esplicitamente tra i diversi approcci di regolarizzazione, tranne dimostrando l'abbandono come un miglioramento dei risultati allo stato dell'arte al momento (i risultati precedenti molto probabilmente utilizzavano altre forme di regolarizzazione, ma non sono elencati). Inoltre menziona i vincoli di peso maxnorm come un efficace regolarizzatore aggiuntivo per aumentare l'abbandono.
Neil Slater
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.