Perché minimizziamo la probabilità negativa se è equivalente alla massimizzazione della probabilità?


47

Questa domanda mi ha lasciato perplesso per molto tempo. Capisco l'uso di "log" per massimizzare la probabilità, quindi non sto chiedendo di "log".

La mia domanda è, poiché massimizzare la verosimiglianza dei log equivale a minimizzare la "verosimiglianza dei log negativi" (NLL), perché abbiamo inventato questo NLL? Perché non utilizziamo sempre la "probabilità positiva"? In quali circostanze è favorita la NLL?

Ho trovato una piccola spiegazione qui. https://quantivity.wordpress.com/2011/05/23/why-minimize-negative-log-likelihood/ , e sembra spiegare l'ovvia equivalenza in profondità, ma non risolve la mia confusione.

Qualsiasi spiegazione sarà apprezzata.


3
La verosimiglianza massima non è una funzione di perdita, ma il suo aspetto negativo è come spiegato nell'articolo nell'ultima sezione. È una questione di coerenza. Supponiamo di avere un sistema di apprendimento intelligente che prova diverse funzioni di perdita per un determinato problema. L'insieme delle funzioni di perdita conterrà la perdita quadrata, la perdita assoluta, ecc. Per avere un elenco coerente, si aggiungerà una probabilità di registro negativa all'elenco delle funzioni di perdita.
Cagdas Ozgenc,

Risposte:


41

Questa è una risposta alternativa : gli ottimizzatori nei pacchetti statistici di solito funzionano minimizzando il risultato di una funzione. Se la tua funzione fornisce prima il valore di verosimiglianza, è più conveniente usare il logaritmo per ridurre il valore restituito dalla funzione di verosimiglianza. Quindi, poiché la probabilità di log e la funzione di verosimiglianza hanno lo stesso andamento crescente o decrescente, è possibile ridurre al minimo la verosimiglianza del log negativa al fine di eseguire effettivamente la stima della verosimiglianza massima della funzione che si sta testando. Vedi ad esempio la nlminbfunzione in R qui


10
Direi che questo va oltre gli ottimizzatori ed è radicato nelle convenzioni della teoria dell'ottimizzazione. Sembra che la minimizzazione sia spesso considerata l'ottimizzazione predefinita. Ad esempio, si consideri il nome "ottimizzazione convessa", che va di pari passo con la minimizzazione ma che avrebbe potuto facilmente essere chiamato "ottimizzazione concava".
Bitwise,

47

Gli ottimizzatori in genere riducono al minimo una funzione, quindi usiamo la probabilità logaritmica negativa come minimizzazione equivalente a massimizzare la verosimiglianza logaritmica o la verosimiglianza stessa.

Solo per completezza, vorrei menzionare che il logaritmo è una funzione monotona, quindi l'ottimizzazione di una funzione è la stessa dell'ottimizzazione del logaritmo di essa. Effettuare la trasformazione del log della funzione di probabilità semplifica la gestione (la moltiplicazione diventa somme) e ciò è anche numericamente più stabile. Questo perché l'entità delle probabilità può essere molto piccola. Effettuare una trasformazione del registro converte questi piccoli numeri in valori negativi più grandi che una macchina di precisione finita può gestire meglio.


4
Ad esempio, riscontro spesso probabilità di log dell'ordine di -40.000 nel mio lavoro. In questo regime è numericamente impossibile lavorare con la probabilità stessa.
Will Vousden

3

Qui i mezzi di riduzione riducono al minimo la distanza di due distribuzioni : la distribuzione di Bernoulli target e la distribuzione del risultato generato. Misuriamo la distanza di due distribuzioni usando la divergenza di Kullback-Leibler (anche chiamata entropia relativa), e a causa della teoria dei grandi numeri minimizzare la divergenza di KL equivale a minimizzare l'entropia crociata (o entropia crociata multiclasse, vedi qui o classificazione binaria, vedi qui e qui ).

così

massimizzare la verosimiglianza equivale a minimizzare la "verosimiglianza negativa"

può essere tradotto in

Massimizzare la probabilità di log equivale a minimizzare la distanza tra due distribuzioni, quindi equivale a minimizzare la divergenza di KL e quindi l'entropia incrociata.

Penso che sia diventato abbastanza intuitivo.


1

La risposta è più semplice di quanto si possa pensare. È la convenzione che chiamiamo la funzione obiettivo di ottimizzazione una "funzione di costo" o "funzione di perdita" e quindi, vogliamo minimizzarli, piuttosto che massimizzarli, e quindi si forma la probabilità di log negativa, piuttosto che la probabilità positiva nella tua parola. Tecnicamente entrambi sono corretti però. A proposito, se vogliamo massimizzare qualcosa, di solito la chiamiamo "funzione di utilità" e quindi l'obiettivo è massimizzarli.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.