Come posso ottenere il conteggio delle parole di un file PDF? Penso che la maggior parte dei file pdf per i quali voglio ottenere il conteggio totale delle parole abbia un livello di testo incorporato, quindi non ho bisogno di OCR.
Il compito è nato dalla ricerca di alcuni articoli scientifici di dimensioni note, ad esempio 15000 parole. La maggior parte degli articoli di moder sono pubblicati in formato pdf
pdftotext
: non dimenticare la e. Ed è possibile utilizzare un singolo comando:pdftotext myfile.pdf - | wc -w
.