Avendo molti documenti di testo (in linguaggio naturale, non strutturato), quali sono i modi possibili per annotarli con alcuni metadati semantici? Ad esempio, considera un breve documento:
I saw the company's manager last day.
Per poter estrarre informazioni da esso, devono essere annotate con dati aggiuntivi per essere meno ambigue. Il processo di ricerca di tali metadati non è in discussione, quindi supponiamo che sia fatto manualmente. La domanda è: come archiviare questi dati in modo tale da poter effettuare ulteriori analisi su di essi in modo più conveniente / efficiente?
Un possibile approccio consiste nell'utilizzare i tag XML (vedi sotto), ma sembra troppo dettagliato e forse ci sono approcci / linee guida migliori per la memorizzazione di tali metadati su documenti di testo.
<Person name="John">I</Person> saw the <Organization name="ACME">company</Organization>'s
manager <Time value="2014-5-29">last day</Time>.