Che cos'è la perplessità?


42

Mi sono imbattuto nel termine perplessità che si riferisce alla probabilità inversa mediata dai log di dati invisibili. L' articolo di Wikipedia sulla perplessità non dà un significato intuitivo per lo stesso.

Questa misura di perplessità è stata utilizzata in pLSA carta .

Qualcuno può spiegare la necessità e il significato intuitivo della misura della perplessità ?


Come calcolo la perplessità per pLSA. Ho datamatrix che ha il conteggio e con l'algoritmo TEM p ( d ) e p ( w | d ) sono calcolati. Xp(d)p(w|d)
Studente

3
Ho controllato gli indici di 5 libri di data mining / machine learning / analytics predittivi di Nisbett, Larose, Witten, Torgo e Shemueli (più coautori) e questo termine non compare in nessuno di essi. Sono perplesso :)
zbicyclist,

1
Perplessità è un altro nome di fantasia per incertezza. Può essere considerata una valutazione intrinseca rispetto alla valutazione estrinseca. Jan Jurafsky lo spiega elegantemente con esempi secondo la modellazione del linguaggio qui su youtube.com/watch?v=BAN3NB_SNHY
bicepjai,

2
@zbicyclist, Se stai cercando esempi in natura, è particolarmente comune in PNL e in particolare per la valutazione di cose come i modelli linguistici.
Matt Krause,

In alcuni campi (ad es. Economia) le persone parlano dei numeri equivalenti in modo tale che ad es. dove H è entropia basata su logaritmi naturali sia un numero equivalente di categorie ugualmente comuni. Quindi, due categorie ciascuna con probabilità 0,5 producono entropia di ln 2 e l'esponenziazione ritorna 2 come il numero di categorie ugualmente comuni. Per probabilità disuguali l'equivalente dei numeri non è in generale un numero intero. exp(H)Hln2
Nick Cox,

Risposte:


21

Hai letto l' articolo di Wikipedia sulla perplessità . Dà la perplessità di una distribuzione discreta come

2xp(x)log2p(x)

che potrebbe anche essere scritto come

exp(xp(x)loge1p(x))

cioè come media geometrica ponderata degli inversi delle probabilità. Per una distribuzione continua, la somma si trasformerebbe in un integrale.

L'articolo fornisce anche un modo per stimare la perplessità per un modello usando pezzi di dati di testN

2i=1N1Nlog2q(xi)

che potrebbe anche essere scritto

exp(i=1Nloge(1q(xi))N) or i=1N1q(xi)N

o in una varietà di altri modi, e ciò dovrebbe rendere ancora più chiaro da dove proviene la "probabilità inversa media logaritmica".


Esiste una particolare distinzione tra quando e viene usato come esponente anziché 2?
Henry E,

2
@HenryE: no, e anche i logaritmi comuni di base funzionerebbero anch'essi - i logaritmi in basi diverse sono proporzionali tra loro e chiaramente un registro a x = b log b x10alogax=blogbx
Henry,

Ho pensato tanto. Mi sono imbattuto in questa risposta quando stavo cercando di capire perché un pezzo di codice stava usando e per calcolare la perplessità quando tutte le altre formulazioni che avevo visto in precedenza stavano usando 2. Comprendo ora quanto sia importante sapere quale valore di un framework utilizza come base per il calcolo della perdita del tronco
Henry E

27

Ho trovato questo piuttosto intuitivo:

La perplessità di qualunque cosa tu stia valutando, sui dati su cui lo stai valutando, ti dice "questa cosa è giusta tutte le volte che sarebbe un dado a X".

http://planspace.org/2013/09/23/perplexity-what-it-is-and-what-yours-is/


Questo è un articolo interessante; forse non così in profondità ma una buona lettura introduttiva.
Monica Heddneck,

1
Ho anche trovato utile questo articolo, jamesmccaffrey.wordpress.com/2016/08/16/…
user2561747

11

Mi sono chiesto anche questo. La prima spiegazione non è male, ma ecco i miei 2 nat per quello che vale.


Prima di tutto, la perplessità non ha nulla a che fare con la caratterizzazione di quanto spesso indovini qualcosa di giusto. Ha più a che fare con la caratterizzazione della complessità di una sequenza stocastica.

Stiamo osservando una quantità,

2xp(x)log2p(x)

Annulliamo prima il registro e l'espiazione.

2xp(x)log2p(x)=1xp(x)p(x)

Penso che valga la pena sottolineare che la perplessità è invariante con la base che usi per definire l'entropia. Quindi, in questo senso, la perplessità è infinitamente più unica / meno arbitraria dell'entropia come misura.

Rapporto con i dadi

11212×1212=2

N

1(1N1N)N=N

So perplexity represents the number of sides of a fair die that when rolled, produces a sequence with the same entropy as your given probability distribution.

Number of States

OK, so now that we have an intuitive definition of perplexity, let's take a quick look at how it is affected by the number of states in a model. Let's start with a probability distribution over N states, and create a new probability distribution over N+1 states such that the likelihood ratio of the original N states remain the same and the new state has probability ϵ. In the case of starting with a fair N sided die, we might imagine creating a new N+1 sided die such that the new side gets rolled with probability ϵ and the original N sides are rolled with equal likelihood. So in the case of an arbitrary original probability distribution, if the probability of each state x is given by px, the new distribution of the original N states given the new state will be

px=px(1ϵ)
, and the new perplexity will be given by:

1ϵϵxNpxpx=1ϵϵxN(px(1ϵ))px(1ϵ)=1ϵϵxNpxpx(1ϵ)(1ϵ)px(1ϵ)=1ϵϵ(1ϵ)(1ϵ)xNpxpx(1ϵ)

In the limit as ϵ0, this quantity approaches

1xNpxpx

So as you make make rolling one side of the die increasingly unlikely, the perplexity ends up looking as though the side doesn't exist.


3
Surely that's only ~1.39 nats worth?
Matt Krause

Can you elaborate how you get
xNpxpx=(1ϵ)1ϵxNpxpx(1ϵ)
? I can only do
xNpxpx=xN(px(1ϵ))px(1ϵ)=xN(1ϵ)px(1ϵ)xNpxpx(1ϵ)
user2740

\prod_x^N\left{(1-\epsilon\right)}^{p_x\left(1-\epsilon\right)}={\left(1-\epsilon\right)}^{\sum_x^N p_x \left(1-\epsilon\right)}={\left(1-\epsilon\right)}^{\left(1-\epsilon\right)\sum_x^N p_x}={\left(1-\epsilon\right)}^{\left(1-\epsilon\right)}
Alex Eftimiades

5

There is actually a clear connection between perplexity and the odds of correctly guessing a value from a distribution, given by Cover's Elements of Information Theory 2ed (2.146): If X and X are iid variables, then

P(X=X)2H(X)=12H(X)=1perplexity (1)

To explain, perplexity of a uniform distribution X is just |X|, the number of elements. If we try to guess the values that iid samples from a uniform distribution X will take by simply making iid guesses from X, we will be correct 1/|X|=1/perplexity of the time. Since the uniform distribution is the hardest to guess values from, we can use 1/perplexity as a lower bound / heuristic approximation for how often our guesses will be right.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.