Sto creando un parser per l' .one
estensione del file, che una volta finito aggiungerò al progetto Apache Tika.
Ecco il progetto Open Source con licenza APL 2.0 che sto creando: https://github.com/nddipiazza/onenote-parser-java
Ho usato il documento di specifica qui: https://docs.microsoft.com/en-us/openspecs/office_file_formats/ms-one/73d22548-a613-4350-8c23-07d15576be50
Come punto di partenza, ho portato il codice da questo progetto C ++ open source: https://github.com/dropbox/onenote-parser
Ho fatto molta strada nell'analisi dei documenti, ma ho colpito un blocco stradale.
Ecco il file OneNote che sto usando per analizzare: https://drive.google.com/file/d/1uROTEnKeBKU08CG_K5zdDTGHa178LgBK/view?usp=sharing
Non riesco a visualizzare Section1TextArea1 e Section1TextArea2 nei miei risultati analizzati. Quindi mi manca una sorta di elemento di analisi dei dati chiave o qualcosa del genere.
È sicuramente nel file OneNote stesso. Posso vederlo nel visualizzatore esadecimale:
Ecco l'output di analisi JSON: https://gist.github.com/nddipiazza/02d2252d357b3b02a6b9ab1050474267
Credo che nel documento sulle specifiche manchino alcune informazioni molto importanti necessarie per analizzare questo formato proprietario.
Quali elementi principali mi mancano e non ottengo il contenuto effettivo del testo?