Rapporto di verosimiglianza logaritmica nella sintesi del documento


9

Inizialmente l'ho chiesto su overflow dello stack ed è stato riferito a questo sito, quindi ecco qui:

Sto implementando alcuni metodi non supervisionati di sintesi dei documenti basati sulla selezione / estrazione dei contenuti e sono confuso su ciò che il mio libro di testo chiama "rapporto verosimiglianza". Il libro Speech and Language Processing di Jurafsky & Martin lo descrive brevemente come tale:

L'LLR per una parola, generalmente chiamato lambda (w), è il rapporto tra la probabilità di osservare w sia nell'input che nel corpus di sfondo assumendo pari probabilità in entrambi i corpora, e la probabilità di osservare w in entrambi assumendo probabilità diverse per w nell'input e nel corpus di sfondo.

In conclusione, abbiamo il numeratore: "la probabilità di osservare w sia nell'input che nel corpus di sfondo assumendo pari probabilità in entrambi i corpora" - Come posso calcolare quale probabilità utilizzare qui?

e il denominatore: "la probabilità di osservare w in entrambe assumendo diverse probabilità per w nell'input e nel corpus di sfondo". - è semplice quanto la probabilità che la parola si verifichi nei tempi di input rispetto alla probabilità che la parola si verifichi nel corpus? ex:

(count (word, input) / total words in input) * (count (word, corpus) / total words in corpus)

Ho cercato su un documento i riferimenti del mio libro, Accurate Methods for the Statistics of Surprise and Coincidence (Dunning 1993), ma sto trovando difficoltà a collegarmi al problema del calcolo dei valori LLR per le singole parole nella sintesi basata sull'estrazione. Qualsiasi chiarimento qui sarebbe molto apprezzato.


1
Puoi dirci qual è il libro di testo?
Onestop,

Elaborazione vocale e linguistica di Jurafsky & Martin
Richard,

Risposte:


1

Con la mia conoscenza limitata, penso:

  1. "la probabilità di osservare w in input" richiede una distribuzione per calcolare il valore
  2. "la probabilità di osservare w sia nell'input che nel corpus di sfondo assumendo pari probabilità in entrambi i corpora" significa "la probabilità di osservare w ... dato che la probabilità di w è uguale in entrambi i corpora".

Ecco la mia formulazione per questo:


Formulare un po 'il problema:

  1. Ipotesi 1: P (w in input) = P (w in background) = p
  2. Ipotesi 2: P (w in input) = p1 e P (w in background) = p2 e p1 p2

La parte fondamentale è che dovrai assumere una distribuzione qui. Semplificando, assumiamo la distribuzione binomiale per generare w in un testo. Dati i dati campionati, possiamo usare la stima della massima verosimiglianza per calcolare il valore per p, p1 e p2, ed eccoli qui:

  1. p = (count-of-w-in-input + count-of-w-in-background) / (input-size + background-size) = (c1 + c2) / (N1 + N2)
  2. p1 = c1 / N1
  3. p2 = c2 / N2

Vogliamo sapere quale ipotesi è più probabile. Pertanto, calcoliamo la probabilità di ciascuna ipotesi e confrontiamo tra loro (che è fondamentalmente ciò che fa il rapporto di probabilità).

Dato che assumiamo la distribuzione binomiale , possiamo calcolare la probabilità di avere c1 e c2.

Per Ipotesi 1:

L (c1) = La probabilità di osservare w in input = la probabilità di raggiungere c1 quando ci sono parole N1 assumendo la probabilità p (o, in altre parole, selezionando w per c1 volte su N1 volte) è b (N1, c1 , p): consultare la formula della probabilità binomiale qui

L (c2) = La probabilità di osservare w in background = la probabilità di raggiungere c2 quando ci sono parole N2 supponendo che la probabilità p sia b (N2, c2, p)

Per Ipotesi 2, possiamo usare invece p1 e p2.

Ora vogliamo sapere quale ipotesi è più probabile; avremo bisogno di come confrontare un valore di output da ciascuna ipotesi.

Ma ogni ipotesi ha 2 valori, L (c1) e L (c2). Come possiamo confrontare quale ipotesi è più probabile? --- Abbiamo scelto di moltiplicarli insieme per ottenere un output a valore singolo. (perché è analogo alla geometria, immagino)


nei tuoi articoli, p, p1 e p2 sono le stime di p, p1 e p2, giusto?
Xi'an,

Sì, è corretto. Statisticamente parlando, sono le stime di massima verosimiglianza dati i dati del campione e la distribuzione binomiale.
Tanin,

Grazie per averlo sottolineato, a proposito. Ho migliorato la risposta.
Tanin,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.