Basta aggiungere questo chiarimento in modo tale che chiunque scorra così tanto in basso possa almeno farlo bene, dato che ci sono così tante risposte sbagliate votate.
La risposta di Diansheng e la risposta di JakeJ hanno ragione.
Una nuova risposta pubblicata da Shital Shah è una risposta ancora migliore e più completa.
Sì, logit come funzione matematica nelle statistiche, ma quella logitutilizzata nel contesto delle reti neurali è diversa. Le statistiche logitnon hanno nemmeno senso qui.
Non sono riuscito a trovare una definizione formale da nessuna parte, ma logitsostanzialmente significa:
Le previsioni grezze che escono dall'ultimo strato della rete neurale.
1. Questo è il tensore sul quale si applica la argmaxfunzione per ottenere la classe prevista.
2. Questo è il tensore che si inserisce nella softmaxfunzione per ottenere le probabilità per le classi previste.
Inoltre, da un tutorial sul sito Web ufficiale di tensorflow:
Logit Layer
Il livello finale nella nostra rete neurale è il livello logits, che restituirà i valori grezzi per le nostre previsioni. Creiamo uno strato denso con 10 neuroni (uno per ogni classe target 0-9), con attivazione lineare (impostazione predefinita):
logits = tf.layers.dense(inputs=dropout, units=10)
Se sei ancora confuso, la situazione è così:
raw_predictions = neural_net(input_layer)
predicted_class_index_by_raw = argmax(raw_predictions)
probabilities = softmax(raw_predictions)
predicted_class_index_by_prob = argmax(probabilities)
dove predicted_class_index_by_rawe predicted_class_index_by_probsarà uguale.
Un altro nome per raw_predictionsnel codice sopra èlogit .
Per quanto riguarda il perché logit ... Non ne ho idea. Scusate.
[Modifica: vedi questa risposta per le motivazioni storiche alla base del termine.]
banalità
Anche se, se vuoi, puoi applicare statistiche logita quelle probabilitiesche escono dalla softmaxfunzione.
Se la probabilità di una determinata classe è p,
allora la probabilità di log di quella classe è L = logit(p).
Inoltre, la probabilità di quella classe può essere recuperata come p = sigmoid(L), usando la sigmoidfunzione.
Tuttavia, non molto utile per calcolare le probabilità del registro.