Gazetteer o qualsiasi altra opzione di funzionalità di dimensioni fisse intenzionalmente sembra un approccio molto popolare nei documenti accademici , quando hai un problema di dimensioni finite, ad esempio NER in un corpora fisso, o tag POS o qualsiasi altra cosa. Non lo considererei barare a meno che l'unica caratteristica che userete sia la corrispondenza Gazetteer.
Tuttavia, quando si allena qualsiasi tipo di modello NLP, che si basa sul dizionario durante l'allenamento, è possibile che le prestazioni del mondo reale siano molto inferiori rispetto a quelle riportate dai test iniziali, a meno che non si possano includere tutti gli oggetti di interesse nel dizionario (e perché quindi hai bisogno di quel modello?) perché il tuo modello addestrato si affiderà alla funzionalità ad un certo punto e, nel caso in cui altre funzionalità siano troppo deboli o non descrittive, i nuovi oggetti di interesse non verrebbero riconosciuti.
Se usi un Gazetteer nei tuoi modelli, dovresti assicurarti che quella funzione abbia una funzione counter per consentire al modello di bilanciarsi, in modo che la semplice corrispondenza del dizionario non sia l'unica caratteristica della classe positiva (e, soprattutto, il gazetteer dovrebbe abbina non solo esempi positivi, ma anche negativi).
Ad esempio, supponiamo che tu abbia un set completo di infinite variazioni di tutti i nomi di persona, il che rende irrilevante la persona NER, ma ora provi a decidere se l'oggetto menzionato nel testo è in grado di cantare. Farai affidamento su funzioni di inclusione nella tua gazzetta personale, che ti daranno molti falsi positivi; quindi, aggiungerai una funzione incentrata sul verbo di " Is Subject of verbo sing ", e questo probabilmente ti darebbe falsi positivi da tutti i tipi di oggetti come gli uccelli, la tua pancia quando hai fame e un ubriaco che pensasa cantare (ma siamo onesti, non può) - ma quella caratteristica incentrata sul verbo si bilancerà con la tua gazzetta personale per assegnare una classe positiva di "Cantante" a persone e non animali o altri oggetti. Tuttavia, non risolve il caso dell'esecutore ubriaco.