Scelta del metodo di regolarizzazione nelle reti neurali


9

Durante l'addestramento delle reti neurali, ci sono almeno 4 modi per regolarizzare la rete:

  • L1 regolarizzazione
  • Regolarizzazione L2
  • Buttare fuori
  • Normalizzazione in lotti

    oltre ovviamente ad altre cose come la condivisione del peso e la riduzione del numero di connessioni, che potrebbe non essere regolarizzazione nel senso più stretto.

    Ma come scegliere quale di questi metodi di regolarizzazione usare? Esiste un modo più semplice di "provare tutto e vedere cosa funziona"?


  • 3
    Le reti neurali hanno principi? Il principio per i metodi della scatola nera è provare tutto e vedere cosa funziona
    Darrin Thomas,

    E questo è abbastanza triste, non trovi?
    Alex,

    Risposte:


    6

    Non ci sono principi forti e ben documentati per aiutarti a decidere tra i tipi di regolarizzazione nelle reti neurali. Puoi anche combinare tecniche di regolarizzazione, non devi sceglierne solo una.

    Un approccio praticabile può essere basato sull'esperienza e seguendo la letteratura e i risultati di altre persone per vedere cosa ha dato buoni risultati in diversi settori problematici. Tenendo presente ciò, l'abbandono si è rivelato molto efficace per una vasta gamma di problemi e probabilmente puoi considerarlo una buona prima scelta quasi indipendentemente da ciò che stai tentando.

    Inoltre, a volte anche solo scegliere un'opzione con cui hai familiarità può aiutare: lavorare con tecniche che capisci e con cui hai esperienza può ottenere risultati migliori rispetto a provare un sacco di opzioni diverse in cui non sei sicuro di quale ordine di grandezza provare per un parametro . Un problema chiave è che le tecniche possono interagire con altri parametri di rete - ad esempio, potresti voler aumentare la dimensione dei livelli con dropout a seconda della percentuale di dropout.

    Infine, potrebbe non importare enormemente quali tecniche di regolarizzazione stai usando, solo che capisci il tuo problema e modella abbastanza bene da individuare quando è troppo adatto e potresti fare con più regolarizzazione. O viceversa, individuare quando è insufficiente e che è necessario ridimensionare la regolarizzazione.


    3

    Metodo di regolarizzazione

    Per le seguenti 4 tecniche, la regolarizzazione L1 e la regolarizzazione L2 sono inutili per dire che devono essere un metodo di regolarizzazione. Riducono il peso. L1 si concentrerebbe sulla riduzione di una minore quantità di peso se i pesi hanno maggiore importanza.

    L'abbandono impedisce l'adattamento eccessivo eliminando temporaneamente i neuroni. Alla fine, calcola tutti i pesi come una media in modo che il peso non sia troppo grande per un neurone particolare e quindi è un metodo di regolarizzazione.

    La normalizzazione in lotti non dovrebbe essere un metodo di regolarizzazione perché lo scopo principale è accelerare l'allenamento selezionando un lotto e forzando la distribuzione del peso vicino a 0, non troppo grande, non troppo piccolo.

    Scegliendolo

    Per me, il mini-batch è un must perché può accelerare il processo e migliorare le prestazioni della rete ogni volta.

    L1 e L2 sono entrambi simili e preferirei L1 in una piccola rete.

    Idealmente, il dropout dovrebbe applicarsi se c'è un grande problema di variazione o eccesso di adattamento.

    Ultimo ma non meno importante, sono d'accordo con Neil Slater che dipende dalla situazione e non ci sarà mai una soluzione ottimale.

    Ti consiglio di leggere questo per ulteriori informazioni. Questo è un ottimo materiale http://neuralnetworksanddeeplearning.com/chap3.html


    -1

    Guarda quelle scelte algoritmiche come iperparametri aggiuntivi e ottimizzali come fai per gli altri iperparametri. In genere ciò richiederà però più dati.


    2
    Ciao Alex, benvenuto in DS.SE. Questo è un sito di domande e risposte con le risposte più ricche che si spostano verso l'alto tramite il voto. Qualcuno ti ha votato, forse dal momento che la tua risposta è piuttosto breve e in generale spiega la soluzione (ad esempio) non sta spiegando i dettagli degli iperparametri, un termine che non è stato usato dal poster originale.
    Marcus D,
    Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
    Licensed under cc by-sa 3.0 with attribution required.