Spiegazione intuitiva della perdita di log


10

In diverse competizioni kaggle il punteggio si basava sulla "perdita di log". Ciò si riferisce all'errore di classificazione.

Ecco una risposta tecnica ma sto cercando una risposta intuitiva. Mi sono piaciute molto le risposte a questa domanda sulla distanza di Mahalanobis, ma PCA non è in perdita.

Posso usare il valore emesso dal mio software di classificazione, ma non lo capisco davvero. Perché lo usiamo al posto dei tassi vero / falso positivo / negativo? Potete aiutarmi in modo da poterlo spiegare a mia nonna o a un principiante nel campo?

Mi piace anche e sono d'accordo con la citazione:

non capisci davvero qualcosa a meno che tu non possa spiegarlo a tua nonna
- Albert Einstein

Ho provato a rispondere da solo prima di pubblicare qui.

I collegamenti che non ho trovato intuitivi o davvero utili includono:

Questi sono informativi e precisi. Sono pensati per un pubblico tecnico. Non disegnano un'immagine semplice né forniscono esempi semplici e accessibili. Non sono scritti per mia nonna.


non hai fornito un link alla tua risposta tecnica
bdeonovic


@ EhsanM.Kermani - Non ho trovato quelli intuitivi come quelli di Mahalanobis a cui ho fatto riferimento.
EngrStudent,

1
la voce sul sito web di Kaggle fornisce una spiegazione piuttosto concisa della perdita di log
bdeonovic,

Trovato questo link: exegetic.biz/blog/2015/12/making-sense-logarithmic-loss . Potrebbe aiutare.
Deolu

Risposte:


8

Logloss è il logaritmo del prodotto di tutte le probabilità. Supponiamo che Alice abbia predetto:

  • con probabilità 0,2, John ucciderà Jack
  • con probabilità 0,001, Maria sposerà Giovanni
  • con probabilità 0,01, Bill è un assassino.

Si è scoperto che Mary non ha sposato John, Bill non è un assassino, ma John ha ucciso Jack. Il prodotto delle probabilità, secondo Alice, è 0,2 * 0,999 * 0,99 = 0,197802

Bob ha predetto:

  • con probabilità 0,5, John ucciderà Jack
  • con probabilità 0,5, Maria sposerà Giovanni
  • con probabilità 0,5, Bill è un assassino.

Il prodotto è 0,5 * 0,5 * 0,5 = 0,125.

Alice è migliore predittore di Bob.


perché funziona "prodotto di tutte le probabilità"? Sembra un parente della massimizzazione delle aspettative.
EngrStudent,

3
Hai bisogno di una prova formale? È nella "risposta tecnica" menzionata dall'argomento. Hai bisogno di un motivo informale "nonna" perché? Tu dici: supponi che questo tizio abbia dato previsioni corrette. Qual è la probabilità che tutto accada come è realmente successo? Questo è il prodotto delle probabilità.
user31264

"prodotto di probabilità" non è "nonna". registro del prodotto delle probabilità è la somma delle probabilità del registro, che usano nella massimizzazione delle aspettative e chiamano "aspettativa". Penso che sia anche codificato nella divergenza di KL. ... Penso che nella nonna si possa dire "" molto probabilmente "= la più alta probabilità complessiva di più eventi. Ci sono due" più alti ": 1) massimizzare la probabilità combinata o 2) minimizzare la probabilità combinata negativa. La maggior parte delle macchine l'apprendimento ama la "discesa gradiente" o minimizzare la cattiveria. La perdita di log è la probabilità negativa ridimensionata in base alla dimensione del campione e viene minimizzata
EngrStudent,

Qui link dicono che "exp (-loss) è la probabilità media di una previsione corretta".
EngrStudent,

Mi è piaciuto il ref Bishop qui . È l'equazione 4.108 ed è la funzione di errore di entropia incrociata.
EngrStudent,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.