Utilizzo di Vowpal Wabbit per NER


9

Vowpal Wabbit (VW) apparentemente supporta la funzionalità di tagging in sequenza tramite SEARN . Il problema è che non riesco a trovare un elenco di parametri dettagliato da nessuna parte con spiegazioni e con alcuni esempi. Il migliore che ho trovato è il blog di Zinkov con un esempio molto breve. La pagina principale della wiki menziona a malapena SEARN.

Nel codice sorgente verificato ho trovato la cartella demo con alcuni dati di esempio NER. Sfortunatamente, lo script che esegue tutti i test non mostra come eseguire questi dati. Almeno è stato abbastanza informativo per vedere qual è il formato previsto: quasi uguale al formato dati VW standard, tranne per il fatto che le voci sono separate da righe vuote (questo è importante).

La mia attuale comprensione è di eseguire il seguente comando:

cat train.txt | vw -c --passes 10 --searn 25 --searn_task sequence \
--searn_passes_per_policy 2 -b 30 -f twpos.vw

dove

--searn 25 - il numero totale di etichette NER (?)

--searn_task sequence - task di codifica sequenziale (?)

--searn_passes_per_policy 2 - non chiarire cosa fa

Altri parametri sono standard per VW e non richiedono ulteriori spiegazioni. Forse ci sono più parametri specifici di SEARN? Qual è la loro importanza e impatto? Come accordarli? Qualche regola empirica?

Eventuali suggerimenti agli esempi saranno apprezzati.

Risposte:


Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.