Risposte:
La soluzione sta usando odt2txt. Ora, questo comando è fornito da due diversi pacchetti, vale a dire uno chiamato con il odt2txtquale è possibile installare
sudo apt-get install odt2txt
e dal pacchetto unoconv(che offre anche conversioni da riga di comando tra più formati di libreoffice), che è installato da
sudo apt-get install unoconv
Se hai i due, puoi passare da uno all'altro usando il meccanismo alternativo :
sudo update-alternatives --config odt2txt
Se stai usando il odt2txtfornito dal pacchetto odt2txtche usi
odt2txt file.odt
se si utilizza il unoconvpacchetto fornito è necessario utilizzare
odt2txt --stdout file.odt
Instradali lessper avere un'esperienza meno simile ( odt2txt file.odt | less)
Si noti che se non si utilizza l' --stdoutopzione, il pacchetto non fornito non scriverà il risultato in un file chiamato file.txt.
Il pacchetto suggerito dalla distribuzione sembra essere quello del odt2txtpacchetto (ha una priorità predefinita più alta nel sistema alternativo); di sicuro ha meno dipendenze.
unoconv, come ho scoperto, è che vuole installare una versione precedente di Libre Office se ne hai installata una più recente. Pertanto, attenersi a sudo apt install odt2txt.
update-alternatives, grazie.
Puoi sfogliare il testo senza alcuna utilità speciale. Il file ODT è un archivio zip rinominato. Decomprimilo e vedrai diversi file. Uno di questi, content.xmlcontiene tutto il testo ed è moreo lessleggibile.
odt2txt file.odt
il codice sorgente e il file zip funzionante di compilazione possono essere scaricati qui:
https://github.com/dstosberg/odt2txt/
o installato da
sudo apt-get install odt2txt
Non puoi cato lesso moreun file .odt perché è un file binario. In realtà è - come è stato detto in precedenza - un archivio .zip rinominato, quindi è necessario estrarre il content.xmlfile, ma ciò, come implica, è un documento XML, quindi è necessario elaborarlo come tale per estrarre le informazioni da esso.
odt2txtpacchetto e si comporta come dovrebbe.