Grep in Microsoft Word?


10

Grep in Microsoft Word?

Vorrei estrarre tutte le righe con una determinata stringa da un documento word. Nel mondo unix ... grep lo fa senza problemi. Windows è meno che ovvio per me.

Risposte:


10

Con Cygwin (o l'accesso a una macchina Linux) potresti farlo

antiword file.doc | grep "my phrase"

o

catdoc file.doc | grep "my phrase"

Ci sono molti convertitori di formati di file da riga di comando là fuori per grep in modo simile.

La soluzione puramente in-Word potrebbe essere Ctrl + F (Trova), quindi Trova tutto - tuttavia, non sono sicuro che tutte le versioni di MS Word abbiano il pulsante Trova tutto .


2
Quando ho visto il titolo della domanda ho pensato "Ah! Sarebbe bello, no". Non dovrei mai più sottovalutare i programmatori GNU.
Phoshi,

La versione più recente di catdocsegfaults su ogni .doc/ .docxfile che do, e antiwordmi dice solo che il mio documento "non è un documento di Word". Conosci altre opzioni?
Detly

Nulla di ciò che ho usato ... La ricerca rapida mostra che docx2txtesiste nei repository Debian - potrebbe funzionare. Esaminerei anche l'utilità di conversione del formato della riga di comando di OpenOffice / LibreOffice (unoconv), che potrebbe essere utilizzata per lo stesso scopo.
chronos,

3

So che sembra primitivo, ma cosa ti impedisce di salvare il file come .txt e poi di strapparlo a tuo piacimento.


2
Avere centinaia di persone per cui farlo, ecco cosa.
tchrist,

1

Cosa significa "linea" in un contesto di Word? La riga visualizzata, che cambia se fai qualcosa per la formattazione della pagina? Il paragrafo? Qualcos'altro?

Puoi fare un sacco di cose con le funzioni di ricerca e sostituzione di Word, tra cui la modifica della formattazione e altre cose non ovvie, ma tutte agiranno solo sul testo find-what stesso, non su qualsiasi testo circostante.


grep ha quel regex che ama, però!
Phoshi,

1

C'è supporto per i documenti MS - Word, PowerPoint, Excel - in CRGREP che ho sviluppato come strumento open source gratuito. Comprende anche altre cose difficili da cercare come tabelle di database, immagini, audio, archivi, PDF e combinazioni di questi. Divertiti.



0

Non ho abbastanza rappresentante per commentare, ma posso vedere questo problema doc vs docx discusso in modo che chiunque insegua il thread (come fossi io) possa trovare utile questo.

Non è necessario uno strumento speciale per i file docx. docx sono file XML compressi.

Per estrarre e rimuovere l'XML, provare qualcosa in base

unzip -p "*.docx" word/document.xml | sed -e 's/<[^>]\{1,\}>//g; s/[^[:print:]]\{1,\}//g'

dalla riga di comando fu


Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.