Basta aggiungere questo chiarimento in modo tale che chiunque scorra così tanto in basso possa almeno farlo bene, dato che ci sono così tante risposte sbagliate votate.
La risposta di Diansheng e la risposta di JakeJ hanno ragione.
Una nuova risposta pubblicata da Shital Shah è una risposta ancora migliore e più completa.
Sì, logit
come funzione matematica nelle statistiche, ma quella logit
utilizzata nel contesto delle reti neurali è diversa. Le statistiche logit
non hanno nemmeno senso qui.
Non sono riuscito a trovare una definizione formale da nessuna parte, ma logit
sostanzialmente significa:
Le previsioni grezze che escono dall'ultimo strato della rete neurale.
1. Questo è il tensore sul quale si applica la argmax
funzione per ottenere la classe prevista.
2. Questo è il tensore che si inserisce nella softmax
funzione per ottenere le probabilità per le classi previste.
Inoltre, da un tutorial sul sito Web ufficiale di tensorflow:
Logit Layer
Il livello finale nella nostra rete neurale è il livello logits, che restituirà i valori grezzi per le nostre previsioni. Creiamo uno strato denso con 10 neuroni (uno per ogni classe target 0-9), con attivazione lineare (impostazione predefinita):
logits = tf.layers.dense(inputs=dropout, units=10)
Se sei ancora confuso, la situazione è così:
raw_predictions = neural_net(input_layer)
predicted_class_index_by_raw = argmax(raw_predictions)
probabilities = softmax(raw_predictions)
predicted_class_index_by_prob = argmax(probabilities)
dove predicted_class_index_by_raw
e predicted_class_index_by_prob
sarà uguale.
Un altro nome per raw_predictions
nel codice sopra èlogit
.
Per quanto riguarda il perché logit
... Non ne ho idea. Scusate.
[Modifica: vedi questa risposta per le motivazioni storiche alla base del termine.]
banalità
Anche se, se vuoi, puoi applicare statistiche logit
a quelle probabilities
che escono dalla softmax
funzione.
Se la probabilità di una determinata classe è p
,
allora la probabilità di log di quella classe è L = logit(p)
.
Inoltre, la probabilità di quella classe può essere recuperata come p = sigmoid(L)
, usando la sigmoid
funzione.
Tuttavia, non molto utile per calcolare le probabilità del registro.