Perplessità ed entropia incrociata per i modelli n-grammo


10

Cercare di capire la relazione tra entropia incrociata e perplessità. In generale per un modello M , Perplexity (M) = 2 ^ entropia (M) . Questa relazione vale per tutti i diversi n-grammi, ovvero unigram, bigram ecc.?


Questa è in realtà la definizione di perplessità; la cosa è derivata da esso;)Πi=1N1P(wi|w1,...wi1)N
WavesWashSands

Risposte:


9

Sì, la perplessità è sempre uguale a due al potere dell'entropia. Non importa quale tipo di modello tu abbia, n-gram, unigram o rete neurale.

Ci sono alcuni motivi per cui la gente che modella il linguaggio come la perplessità invece di usare semplicemente l'entropia. Uno è che, a causa dell'esponente, i miglioramenti nella perplessità "sembrano" più sostanziali dell'equivalente miglioramento dell'entropia. Un altro è che prima di iniziare a usare la perplessità, la complessità di un modello di linguaggio è stata riportata usando una misurazione del fattore di ramificazione semplicistica che è più simile alla perplessità che non all'entropia.


1

Concordato con la risposta @Aaron con una leggera modifica:

Non è sempre uguale a due al potere dell'entropia. In realtà, sarà (base per il registro) al potere dell'entropia. Se hai usato e come base, allora sarebbe e ^ entropia.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.