Sono confuso su come calcolare la perplessità di un campione di controllo quando si esegue Latent Dirichlet Allocation (LDA). I documenti sull'argomento si scatenano, facendomi pensare che mi manchi qualcosa di ovvio ...
La perplessità è vista come una buona misura delle prestazioni per LDA. L'idea è di conservare un campione di controllo, addestrare la LDA sul resto dei dati, quindi calcolare la perplessità del controllo.
La perplessità potrebbe essere data dalla formula:
(Tratto dal recupero di immagini su database di immagini su larga scala, Horster et al .)
Qui è il numero di documenti (nel campione di prova, presumibilmente), w d rappresenta le parole nel documento d , N d il numero di parole nel documento d .
Non mi è chiaro come calcolare sensibilmente la , poiché non abbiamo miscele tematiche per i documenti distribuiti. Idealmente, dovremmo integrarci sopra il Dirichlet prima di tutte le possibili miscele di argomenti e utilizzare i multinomi di argomenti che abbiamo appreso. Tuttavia, calcolare questo integrale non sembra un compito facile.
In alternativa, potremmo tentare di apprendere una combinazione ottimale di argomenti per ciascun documento (dati i nostri argomenti appresi) e utilizzarlo per calcolare la perplessità. Ciò sarebbe fattibile, tuttavia non è banale come sembrano suggerire articoli come Horter et al e Blei et al, e non mi è subito chiaro che il risultato sarà equivalente al caso ideale sopra.