Mi sono chiesto anche questo. La prima spiegazione non è male, ma ecco i miei 2 nat per quello che vale.
Prima di tutto, la perplessità non ha nulla a che fare con la caratterizzazione di quanto spesso indovini qualcosa di giusto. Ha più a che fare con la caratterizzazione della complessità di una sequenza stocastica.
Stiamo osservando una quantità, 2−∑xp(x)log2p(x)
Annulliamo prima il registro e l'espiazione.
2−∑xp(x)log2p(x)=1∏xp(x)p(x)
Penso che valga la pena sottolineare che la perplessità è invariante con la base che usi per definire l'entropia. Quindi, in questo senso, la perplessità è infinitamente più unica / meno arbitraria dell'entropia come misura.
Rapporto con i dadi
11212×1212=2
N1(1N1N)N=N
So perplexity represents the number of sides of a fair die that when rolled, produces a sequence with the same entropy as your given probability distribution.
Number of States
OK, so now that we have an intuitive definition of perplexity, let's take a quick look at how it is affected by the number of states in a model. Let's start with a probability distribution over N states, and create a new probability distribution over N+1 states such that the likelihood ratio of the original N states remain the same and the new state has probability ϵ. In the case of starting with a fair N sided die, we might imagine creating a new N+1 sided die such that the new side gets rolled with probability ϵ and the original N sides are rolled with equal likelihood. So in the case of an arbitrary original probability distribution, if the probability of each state x is given by px, the new distribution of the original N states given the new state will be p′x=px(1−ϵ)
, and the new perplexity will be given by:
1ϵϵ∏Nxp′xp′x=1ϵϵ∏Nx(px(1−ϵ))px(1−ϵ)=1ϵϵ∏Nxppx(1−ϵ)x(1−ϵ)px(1−ϵ)=1ϵϵ(1−ϵ)(1−ϵ)∏Nxppx(1−ϵ)x
In the limit as ϵ→0, this quantity approaches 1∏Nxpxpx
So as you make make rolling one side of the die increasingly unlikely, the perplexity ends up looking as though the side doesn't exist.