Qual è la temperatura in LSTM (e le reti neurali in generale)?


Risposte:


28

La temperatura è un iperparametro di LSTM (e reti neurali in genere) utilizzati per controllare la casualità delle previsioni ridimensionando i log prima di applicare softmax. Ad esempio, a Magenta di tensorflow implementazione di LSTMs, la temperatura rappresenta quanto di dividere i logit dalla prima di calcolare il SoftMax.

Quando la temperatura è 1, calcoliamo la softmax direttamente sui log (l'output non scalato dei livelli precedenti) e usando una temperatura di 0,6 il modello calcola la softmax su , ottenendo un valore maggiore. L'esecuzione del softmax su valori più grandi rende l'LSTM più sicuro (è necessario meno input per attivare il livello di output) ma anche più conservativo nei suoi campioni (è meno probabile che provi da candidati improbabili). L'uso di una temperatura più elevata produce una distribuzione di probabilità più morbida tra le classi e rende l'RNN più "facilmente eccitato" dai campioni, con conseguente maggiore diversità e anche più errori .logits0.6

Le reti neurali producono probabilità di classe con vettore logit dove eseguendo la funzione softmax per produrre vettore probabilità confrontando con gli altri logit.z = ( z 1 , , z n ) q = ( q 1 , , q n ) z izz=(z1,,zn)q=(q1,,qn)zi

(1)qi=exp(zi/T)jexp(zj/T)

dove è il parametro della temperatura, normalmente impostato su 1.T

La funzione softmax normalizza i candidati ad ogni iterazione della rete in base ai loro valori esponenziali, garantendo che gli output della rete siano tutti compresi tra zero e uno ad ogni intervallo di tempo.

La temperatura quindi aumenta la sensibilità ai candidati a bassa probabilità. In LSTM, il candidato o campione può essere una lettera, una parola o una nota musicale, ad esempio:

Per le alte temperature ( ), tutti i [campioni] hanno quasi la stessa probabilità e più bassa è la temperatura, più premi attesi influenzano la probabilità. Per una bassa temperatura (da ), la probabilità del [campione] con la ricompensa più alta attesa tende a 1.τ 0 +ττ0+

- dall'articolo di Wikipedia sulla funzione softmax

Riferimento

Hinton, Geoffrey, Oriol Vinyals e Jeff Dean. "Distillare la conoscenza in una rete neurale." arXiv prestampa arXiv: 1503.02531 (2015). arXiv


3
È un'allusione alla distribuzione di Boltzmann (o distribuzione di Gibbs) - una distribuzione di probabilità usata nella meccanica statistica.
MC2,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.