Quali sono i vantaggi di ReLU vs Leaky ReLU e Parametric ReLU (se presenti)?


10

Penso che il vantaggio di usare Leaky ReLU invece di ReLU sia che in questo modo non possiamo avere sfumature sfumate. Parametric ReLU ha lo stesso vantaggio con la sola differenza che la pendenza dell'uscita per gli ingressi negativi è un parametro apprendibile mentre nella Leaky ReLU è un iperparametro.

Tuttavia, non sono in grado di dire se ci sono casi in cui è più conveniente usare ReLU invece di Leaky ReLU o Parametric ReLU.

Risposte:


7

La combinazione di ReLU, la variante con 1 perdita iperparametrizzata e la variante con la parametrizzazione dinamica durante l'apprendimento confonde due cose distinte:

  • Il confronto tra ReLU e la variante che perde è strettamente correlato alla necessità, nel caso ML specifico, di evitare la saturazione - La saturazione è la perdita del segnale a zero gradiente 2 o il dominio del rumore caotico derivante dal digitale arrotondamento 3 .
  • Il confronto tra l'attivazione dell'allenamento dinamico (chiamato parametrico in letteratura) e l'attivazione dell'allenamento statico deve basarsi sul fatto che le caratteristiche non lineari o non regolari dell'attivazione abbiano un valore correlato al tasso di convergenza 4 .

Il motivo per cui ReLU non è mai parametrico è che renderlo così ridondante. Nel dominio negativo, è lo zero costante. Nel dominio non negativo, la sua derivata è costante. Poiché il vettore di input di attivazione è già attenuato con un prodotto a matrice vettoriale (dove la matrice, il cubo o l'ipercubo contiene i parametri di attenuazione) non è utile aggiungere un parametro per variare la derivata costante per il dominio non negativo .

Quando c'è curvatura nell'attivazione, non è più vero che tutti i coefficienti di attivazione sono ridondanti come parametri. I loro valori possono alterare considerevolmente il processo di formazione e quindi la velocità e l'affidabilità della convergenza.

Per reti sostanzialmente profonde, la ridondanza riemerge e ne esistono prove, sia in teoria che in pratica in letteratura.

  • In termini algebrici, la disparità tra ReLU e attivazioni parametricamente dinamiche derivate da essa si avvicina allo zero mentre la profondità (in numero di strati) si avvicina all'infinito.
  • In termini descrittivi, ReLU può approssimare con precisione le funzioni con la curvatura 5 se viene assegnato un numero sufficiente di livelli per farlo.

Ecco perché la varietà ELU, che è vantaggiosa per evitare i problemi di saturazione sopra menzionati per le reti meno profonde, non viene utilizzata per le reti più profonde.

Quindi bisogna decidere due cose.

  • Se l'attivazione parametrica è utile si basa spesso sulla sperimentazione con diversi campioni di una popolazione statistica. Ma non è necessario sperimentarlo affatto se la profondità del livello è elevata.
  • Il valore della variante che perde ha molto a che fare con gli intervalli numerici riscontrati durante la propagazione posteriore. Se il gradiente diventa di piccole dimensioni durante la propagazione posteriore in qualsiasi momento durante l'allenamento, una parte costante della curva di attivazione può essere problematica. In questo caso, una delle funzioni lisce o RelU che perde con le sue due pendenze diverse da zero può fornire una soluzione adeguata.

In sintesi, la scelta non è mai una scelta di convenienza.


Le note

[1] Iperparametri sono parametri che influenzano la segnalazione attraverso il layer che non fanno parte dell'attenuazione degli input per quel layer. I pesi di attenuazione sono parametri. Qualsiasi altra parametrizzazione è nell'insieme di iperparametri. Ciò può includere il tasso di apprendimento, lo smorzamento delle alte frequenze nella propagazione posteriore e un'ampia varietà di altri controlli di apprendimento impostati per l'intero livello, se non per l'intera rete.

[2] Se il gradiente è zero, non ci può essere alcuna regolazione intelligente dei parametri perché la direzione della regolazione è sconosciuta e la sua grandezza deve essere zero. L'apprendimento si interrompe.

[3] Se il rumore caotico, che può sorgere quando la CPU arrotonda valori estremamente piccoli alla loro rappresentazione digitale più vicina, domina il segnale di correzione che è destinato a propagarsi ai livelli, allora la correzione diventa senza senso e l'apprendimento si interrompe.

[4] Il tasso di convergenza è una misura della velocità (relativa ai microsecondi o relativa all'indice di iterazione dell'algoritmo) in cui il risultato dell'apprendimento (comportamento del sistema) si avvicina a ciò che è considerato abbastanza buono. Di solito si tratta di una vicinanza specifica ad alcuni criteri di accettazione formale per la convergenza (apprendimento).

[5] Le funzioni con curvatura sono quelle che non sono visualizzate come diritte o piatte. Una parabola ha curvatura. Una linea retta no. La superficie di un uovo ha una curvatura. Un piano piano perfetto no. Matematicamente, se uno qualsiasi degli elementi dell'Assia della funzione è diverso da zero, la funzione ha curvatura.


Cosa intendi per La scelta non è mai una scelta di convenienza ?
gvgramazio,

@gvgramazio, avevi scritto "più conveniente usare ReLU" nella tua domanda. Stavo indicando che la convenienza non è la base su cui viene fatta la scelta. Forse viene fuori come troppo duro? Non avevo intenzione di esserlo. Le frasi sopra quella frase nella mia risposta avevano lo scopo di fornire i criteri più utili su cui potresti basare la tua decisione quando scegli le funzioni di attivazione.
FauChristian,

Non preoccuparti di essere troppo duro, non è affatto un problema per me. Penso che sia più un problema di lingua (non sono un madrelingua inglese).
gvgramazio,

Il fatto è che, da quello che ho capito, spieghi bene in quale caso dovrei preferire una variante rispetto alle altre. Quello che ancora non capisco è quando dovrei preferire quello classico. ad es. la variante che perde può fornire una soluzione adeguata al gradiente di scomparsa, ma se non ha alcun inconveniente potrei sempre scegliere la variante che perde rispetto alla ReLU.
gvgramazio,

@FauChristian puoi per favore aggiungere altri termini e intuizioni colloquiali, non ho
molta
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.