Questa domanda mi ha lasciato perplesso per molto tempo. Capisco l'uso di "log" per massimizzare la probabilità, quindi non sto chiedendo di "log".
La mia domanda è, poiché massimizzare la verosimiglianza dei log equivale a minimizzare la "verosimiglianza dei log negativi" (NLL), perché abbiamo inventato questo NLL? Perché non utilizziamo sempre la "probabilità positiva"? In quali circostanze è favorita la NLL?
Ho trovato una piccola spiegazione qui. https://quantivity.wordpress.com/2011/05/23/why-minimize-negative-log-likelihood/ , e sembra spiegare l'ovvia equivalenza in profondità, ma non risolve la mia confusione.
Qualsiasi spiegazione sarà apprezzata.