Vowpal Wabbit (VW) apparentemente supporta la funzionalità di tagging in sequenza tramite SEARN . Il problema è che non riesco a trovare un elenco di parametri dettagliato da nessuna parte con spiegazioni e con alcuni esempi. Il migliore che ho trovato è il blog di Zinkov con un esempio molto breve. La pagina principale della wiki menziona a malapena SEARN.
Nel codice sorgente verificato ho trovato la cartella demo con alcuni dati di esempio NER. Sfortunatamente, lo script che esegue tutti i test non mostra come eseguire questi dati. Almeno è stato abbastanza informativo per vedere qual è il formato previsto: quasi uguale al formato dati VW standard, tranne per il fatto che le voci sono separate da righe vuote (questo è importante).
La mia attuale comprensione è di eseguire il seguente comando:
cat train.txt | vw -c --passes 10 --searn 25 --searn_task sequence \
--searn_passes_per_policy 2 -b 30 -f twpos.vw
dove
--searn 25
- il numero totale di etichette NER (?)
--searn_task sequence
- task di codifica sequenziale (?)
--searn_passes_per_policy 2
- non chiarire cosa fa
Altri parametri sono standard per VW e non richiedono ulteriori spiegazioni. Forse ci sono più parametri specifici di SEARN? Qual è la loro importanza e impatto? Come accordarli? Qualche regola empirica?
Eventuali suggerimenti agli esempi saranno apprezzati.