Ho bisogno di un modo per estrarre il testo da tutti i tipi di documenti di MS Office (Word, Excel, Powerpoint), in Linux. Immagino che potrebbero esserci diversi approcci per ottenere questo risultato, come uno script Bash o Python, o convertirli in PDF e quindi estrarre il testo usando uno strumento come pdftotext.
Sembra che potrebbe essere un requisito comune. Esiste una procedura o uno strumento stabilito per farlo facilmente?