Sto esportando il contenuto di MS Word in testo normale da utilizzare con utilità di testo e file. Ho un vincolo in cui la funzione di numerazione delle righe è stata abilitata nel software MS e qualsiasi riferimento ai numeri di riga nell'output finale deve corrispondere a tale numerazione. Quindi inserisci "linee di numerazione":
( Poe, EA )
Ovviamente per Word , quel tipo di numerazione non interrompe le righe alla riga successiva , interrompe le "righe" dopo il margine giusto (o qualcosa del genere). Uno script simile docx2txt
, per impostazione predefinita, non tiene conto di ciò e interrompe le righe a newline. Quindi, se uso grep -n
con la numerazione, le righe non corrisponderanno alla funzione dei numeri di riga di origine, come illustrato sopra. Dalla documentazione non è esattamente chiaro come avrei bisogno di modificare lo script Perl per convertire i file come devo fare in questo caso:
our $config_newLine = "\n"; # Alternative is "\r\n".
our $config_lineWidth = 80; # Line width, used for short line justification.
Ho provato a sostituire \n
per \r\n
, ma che non sembra funzionare per me. Quindi ho fatto ricorso all'esportazione dei documenti direttamente da Word con le seguenti impostazioni (salva come testo normale , su v.2013,64pc):
- Unicode (UTF-8)
- Inserisci interruzioni di riga + fine con (CR / LF)
- Consenti la sostituzione del personaggio
E ora in effetti quando uso i .txt
file c'è una corrispondenza perfetta tra i numeri di riga nella funzione di numerazione sorgente e l' grep -n
output.
- Esiste qualche configurazione / processo specifico che dovrei conoscere
docx2txt
o un'utilità della riga di comando simile che mi avrebbe permesso di convertire i miei file .docx in testo normale preservando le interruzioni di riga, senza ricorrere a Word come ho fatto io? - Quali sono le migliori pratiche , se presenti, per esportare documenti MS Word (che possono contenere caratteri accentati) in testo normale da utilizzare con utilità di file / testo, rispetto alle interruzioni di riga e alla formattazione; e ci sono implicazioni negative con le impostazioni che ho scelto per l'esportazione, ad esempio l'inserimento di CR / LF?
Campione
Come suggerito, fornisco un campione. In questo raro archivio , ho raggruppato un file .docx con semplici paragrafi e il suo file .txt esportato usando Word con le opzioni di cui sopra. Quest'ultimo può essere confrontato con un'esecuzione predefinita del docx2txt
file di origine.