Sto lavorando su un'applicazione che richiede la creazione di un database molto grande di n-grammi che esiste in un corpus di testo di grandi dimensioni.
Ho bisogno di tre tipi di operazioni efficienti: ricerca e inserimento indicizzati dall'n-grammo stesso e interrogazione per tutti gli n-grammi che contengono un sotto-n-grammo.
Mi sembra che il database dovrebbe essere un gigantesco albero di documenti e che i database di documenti, ad esempio Mongo, dovrebbero essere in grado di fare bene il lavoro, ma non li ho mai usati su larga scala.
Conoscendo il formato delle domande di Stack Exchange, vorrei chiarire che non sto chiedendo suggerimenti su tecnologie specifiche, ma piuttosto un tipo di database che dovrei cercare per implementare qualcosa di simile su larga scala.