Da quello che ho visto, la formula di lisciatura di Kneser-Ney (di secondo ordine) è in qualche modo data come
con il fattore di normalizzazione dato come
e la probabilità di continuazione di una parola w_nw n
dove è il numero di contesti è stato visto o, più semplice, il numero di parole distinte che precedono la parola data . Da quello che ho capito, la formula può essere applicata in modo ricorsivo.
Ora questo gestisce bene le parole conosciute in contesti sconosciuti per diverse lunghezze di n-grammi, ma ciò che non spiega è cosa fare quando ci sono parole fuori dal dizionario. Ho provato a seguire questo esempio che afferma che nella fase di ricorsione per unigrammi, . Il documento usa quindi questo - citando Chen e Goodman - per giustificare la formula sopra come .
Non riesco a vedere come funziona in presenza di una parola sconosciuta . In questi casi poiché, ovviamente, la parola sconosciuta non continua nulla riguardo al set di addestramento. Allo stesso modo il conteggio di n-grammi sarà .P c o n t ( sconosciuto ) = 0 C(wn-1,sconosciuto)=0
Inoltre, l'intero termine potrebbe essere zero se si incontra una sequenza di parole sconosciute - diciamo, un trigramma di parole OOD -.
Cosa mi sto perdendo?