Sto usando OSX e vorrei essere in grado di convertire i file pdf in testo.
Vorrei un'applicazione gratuita per farlo, poiché sono sicuro che ce ne devono essere alcuni.
Sto usando OSX e vorrei essere in grado di convertire i file pdf in testo.
Vorrei un'applicazione gratuita per farlo, poiché sono sicuro che ce ne devono essere alcuni.
Risposte:
Ecco i passaggi che ho usato per installare e utilizzare xpdf tramite Homebrew.
Installa le dipendenze di Homebrew:
xcode-select --install
Installa Homebrew dal loro sito Web:
/usr/bin/ruby -e "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/master/install)"
Fai quello che ti dice di completare l'installazione di Homebrew.
Verifica che Homebrew sia felice e funzionante secondo le specifiche.
brew doctor
Quindi installare xpdf e le sue dipendenze:
brew install Caskroom/cask/xquartz
brew install xpdf
Infine, usa pdftotext, un pacchetto fornito con la suite xpdf:
pdftotext Some_Document.pdf Some_Document.txt
Il primo nome file è un PDF esistente; il secondo è la destinazione. I risultati sono stati molto migliori rispetto a una versione (sicuramente precedente) di Adobe Acrobat. Modifica: le nuove versioni (2019) di Adobe Acrobat hanno mostrato risultati altrettanto scarsi.
xquartz
non sia necessario per gli strumenti della console xpdf
. Inoltre, c'è il poppler
fork di xpdf
cui sembra molto più attivamente mantenuto: github.com/scraperwiki/scraperwiki-python/issues/…
Più metodi.
Utilizza documenti Google (avrai bisogno di un account Google)
Usa Automator (richiede un po 'di lavoro)
È possibile utilizzare Automator per creare un flusso di lavoro in grado di estrarre testo da PDF e salvarlo come documento di testo o RTF.
o un'app dall'App Store, ad esempio da PDF a testo
xpdf
che ho installato con le porte:
port install xpdf
contiene:
xpdf-pdftotext
Fa quello che vuoi per qualsiasi file PDF che proviene da un file di testo (e non da un'immagine):
xpdf-pdftotext PDF_file text_file
La versione corrente di Adobe Reader (11.0.09) ha una voce "Salva come altro" nel suo menu File.
Una delle opzioni è Testo .
L'app è gratuita e fa un lavoro decente producendo file di testo. Tutte le immagini nel nuovo documento andranno perse con il formato .txt.
Penso che dovresti essere in grado di copiare e incollare il testo in un altro documento. Per selezionare tutto il testo
Nota che se provi a farlo e non c'è testo incollato, solo un mucchio di righe vuote, prova prima a stampare il tuo PDF su un nuovo PDF, ad es.
Ora prova la procedura sopra descritta con questo nuovo PDF. Ha funzionato per me!
PS: se disponi di Microsoft Word, potresti essere in grado di aprire il tuo PDF in Word
Il seguente script python genererà il testo da un documento PDF in un file .txt. (Nota: non esiste alcuna garanzia che il testo sia necessariamente in un ordine "logico" leggibile dall'uomo, a causa del modo in cui i dati sono conservati in formato PDF.)
Lo script creerà file di testo per tutti i file PDF forniti come argomenti nella riga di comando (ad esempio pdf2txt.py myPDF.pdf
), oppure è possibile utilizzare nell'azione "Esegui script shell" di Automator, impostando il tipo di shell su Python e passando l'input su "Come argomenti" . Quindi puoi usarlo come azione rapida o DropApp.
#!/usr/bin/python
# coding: utf-8
import os, sys
from Quartz import PDFDocument
from CoreFoundation import (NSURL, NSString)
NSUTF8StringEncoding = 4
def pdf2txt():
for filename in sys.argv[1:]:
inputfile =filename.decode('utf-8')
shortName = os.path.splitext(filename)[0]
outputfile = shortName+" text.txt"
pdfURL = NSURL.fileURLWithPath_(inputfile)
pdfDoc = PDFDocument.alloc().initWithURL_(pdfURL)
if pdfDoc :
pdfString = NSString.stringWithString_(pdfDoc.string())
pdfString.writeToFile_atomically_encoding_error_(outputfile, True, NSUTF8StringEncoding, None)
if __name__ == "__main__":
pdf2txt()
if pdfDoc
istruzione con print(pdfDoc.string())
.