Inizialmente l'ho chiesto su overflow dello stack ed è stato riferito a questo sito, quindi ecco qui:
Sto implementando alcuni metodi non supervisionati di sintesi dei documenti basati sulla selezione / estrazione dei contenuti e sono confuso su ciò che il mio libro di testo chiama "rapporto verosimiglianza". Il libro Speech and Language Processing di Jurafsky & Martin lo descrive brevemente come tale:
L'LLR per una parola, generalmente chiamato lambda (w), è il rapporto tra la probabilità di osservare w sia nell'input che nel corpus di sfondo assumendo pari probabilità in entrambi i corpora, e la probabilità di osservare w in entrambi assumendo probabilità diverse per w nell'input e nel corpus di sfondo.
In conclusione, abbiamo il numeratore: "la probabilità di osservare w sia nell'input che nel corpus di sfondo assumendo pari probabilità in entrambi i corpora" - Come posso calcolare quale probabilità utilizzare qui?
e il denominatore: "la probabilità di osservare w in entrambe assumendo diverse probabilità per w nell'input e nel corpus di sfondo". - è semplice quanto la probabilità che la parola si verifichi nei tempi di input rispetto alla probabilità che la parola si verifichi nel corpus? ex:
(count (word, input) / total words in input) * (count (word, corpus) / total words in corpus)
Ho cercato su un documento i riferimenti del mio libro, Accurate Methods for the Statistics of Surprise and Coincidence (Dunning 1993), ma sto trovando difficoltà a collegarmi al problema del calcolo dei valori LLR per le singole parole nella sintesi basata sull'estrazione. Qualsiasi chiarimento qui sarebbe molto apprezzato.