Ho riscontrato un problema simile.
Ho addestrato il mio classificatore binario della rete neurale con una perdita di entropia incrociata. Qui il risultato dell'entropia crociata in funzione dell'epoca. Il rosso è per il set di allenamento e il blu per il set di test.
Mostrando la precisione, ho avuto la sorpresa di ottenere una migliore precisione per l'epoca 1000 rispetto all'epoca 50, anche per il set di test!
Per comprendere le relazioni tra entropia incrociata e accuratezza, ho scavato in un modello più semplice, la regressione logistica (con un input e un output). Di seguito, ho appena illustrato questa relazione in 3 casi speciali.
In generale, il parametro in cui l'entropia crociata è minima non è il parametro in cui la precisione è massima. Tuttavia, possiamo aspettarci una relazione tra entropia incrociata e accuratezza.
[Di seguito, suppongo che tu sappia cos'è l'entropia incrociata, perché la usiamo invece dell'accuratezza per addestrare il modello, ecc. In caso contrario, leggi prima: Come interpretare un punteggio dell'entropia incrociata? ]
Illustrazione 1 Questa è per mostrare che il parametro in cui l'entropia incrociata è minima non è il parametro in cui l'accuratezza è massima e per capire il perché.
Ecco i miei dati di esempio. Ho 5 punti e, ad esempio, l'ingresso -1 ha portato all'uscita 0.
Entropia incrociata.
Dopo aver minimizzato l'entropia crociata, ottengo una precisione di 0,6. Il taglio tra 0 e 1 viene eseguito su x = 0,52. Per i 5 valori, ottengo rispettivamente un'entropia incrociata di: 0,14, 0,30, 1,07, 0,97, 0,43.
Precisione.
Dopo aver massimizzato la precisione su una griglia, ottengo molti parametri diversi che portano a 0,8. Questo può essere mostrato direttamente, selezionando il taglio x = -0.1. Bene, puoi anche selezionare x = 0,95 per tagliare i set.
Nel primo caso, l'entropia crociata è grande. In effetti, il quarto punto è lontano dal taglio, quindi ha una grande entropia crociata. Vale a dire, ottengo rispettivamente un'entropia crociata di: 0,01, 0,31, 0,47, 5,01, 0,004.
Nel secondo caso, anche l'entropia crociata è grande. In quel caso, il terzo punto è lontano dal taglio, quindi ha una grande entropia crociata. Ottengo rispettivamente un'entropia crociata di: 5e-5, 2e-3, 4.81, 0.6, 0.6.
un'un'B
n = 100a = 0,3b = 0,5
BBun'
un'
a = 0,3
n = 10000a = 1b = 0
Penso che se il modello ha una capacità sufficiente (sufficiente per contenere il modello reale) e se i dati sono grandi (ovvero la dimensione del campione va all'infinito), l'entropia incrociata può essere minima quando la precisione è massima, almeno per il modello logistico . Non ne ho la prova, se qualcuno ha un riferimento, per favore condividi.
Bibliografia: L'argomento che collega l'entropia incrociata e l'accuratezza è interessante e complesso, ma non riesco a trovare articoli che trattano questo ... Studiare l'accuratezza è interessante perché, nonostante sia una regola di punteggio impropria, ognuno può comprenderne il significato.
Nota: in primo luogo, vorrei trovare una risposta su questo sito Web, i post relativi alla relazione tra accuratezza ed entropia incrociata sono numerosi ma con poche risposte, vedi: Traing comparabile e test di entropia incrociata producono accuratezze molto diverse ; Perdita di convalida in calo, ma peggioramento dell'accuratezza della convalida ; Dubbio sulla funzione categorica di perdita di entropia incrociata ; Interpretazione della perdita di log in percentuale ...