Scarica tutti i collegamenti PDF in una pagina Web? [chiuso]


Risposte:


35

Puoi usare wget ed eseguire un comando come questo:

wget --recursive --level=1 --no-directories --no-host-directories --accept pdf http://example.com

O con le opzioni brevi:

wget -r -l 1 -nd -nH -A pdf http://example.com

AGGIORNAMENTO: Poiché l'aggiornamento dice che stai utilizzando Windows 7: usa wget per Windows da un cmdprompt.

AGGIORNAMENTO 2: Per una soluzione grafica, anche se potrebbe essere eccessivo poiché ottiene anche altri file è DownThemAll


grazie Kevin per il tuo consiglio, wget sembra buono, comunque preferirei un software 'grafico', non riga di comando. :)
Chiedi il

2
Questo rifiuta anche la pagina iniziale .html. È mai stato testato?
dan3,

La domanda è sul download di tutti i collegamenti PDF, quindi sì, la pagina iniziale .html verrà ignorata.
Kevin Worthington,

Esiste la possibilità di fare la stessa cosa in Windows 7 usando Power Shell?
Benedikt Buchert,

1
Vorrei anche suggerire di gettare un ritardo di almeno alcuni secondi tra i download di file in modo da essere piacevole e non sopraffare il server remoto. e, g, per wget, aggiungi una bandiera di-w 5
KJH

6
  1. Nel tuo browser, premi CTRL+ SHIFT+ Je inserisci

    var pdflinks = []; Array.prototype.map. call (document.querySelectorAll ("a [href $ = \". pdf \ "]"), funzione (e, i) {if ((pdflinks || []). indexOf (e.href) == - 1) {pdflinks.push (e.href);}}); console.log (pdflinks.join (""));

    Questo tornerà nella console:

    " https://superuser.com/questions/tagged/somepdf1.pdf " " https://superuser.com/questions/tagged/somepdf2.pdf " " https://superuser.com/questions/tagged/somepdf3.pdf "

  2. Ora usando wgetcon le opzioni della riga di comandowget url1 url2 ...

Copia e incolla questo, apri una console entra wgetpremi il tasto destro del mouse per inserire il contenuto degli appunti e premi invio.

Per utilizzare un file di download, unire le righe con "\ n" e utilizzare il parametro come segue wget -i mydownload.txt

Nota che anche la maggior parte degli altri programmi di download (GUI) accetta di essere chiamato con un elenco di URL separati da spazi.

Spero che sia di aiuto. È così che generalmente lo faccio. È più veloce e più flessibile di qualsiasi estensione con un'interfaccia grafica, devo imparare e familiarizzare.


1
Meglio ancora, console.log('"' + pdflinks.join('" "') + '"')altrimenti non otterrai effettivamente gli URL citati
dan3

1

Se vuoi rimanere nel browser, ho scritto un'estensione web esattamente per questo scopo: sto lavorando per aggiungere la possibilità di salvare PDF di articoli accademici con titoli correttamente formattati, ma se vuoi semplicemente scaricarli è tutto perfetto per questo.

Si chiama Tab Save e sul web store di Chrome qui . Non devi nemmeno inserire l'elenco di URL se li apri tutti in schede (ma per un gran numero di file questo potrebbe rallentare un computer, quindi ho aggiunto l'opzione per aggiungere il tuo).


0

Recentemente ho usato uGet (su Windows) per questo. Ha una GUI e puoi filtrare i file che intendi scaricare.

Salva cercando di ricordare tutti quelli


0

Su Google Chrome, è possibile utilizzare estensioni come:

  • Scarica Master

    Con questa estensione è possibile scaricare tutte le immagini, i video, i pdf, i documenti e tutti gli altri file collegati alla pagina Web che si sta visitando.


0

Google

Esistono pochi strumenti Python che consentono di scaricare collegamenti PDF dal sito Web in base ai risultati di ricerca di Google.

Per esempio

Nota: sono il manutentore di entrambi gli script citati.

Entrambi stanno implementando la xgooglelibreria Python. Il mio fork di questa libreria si basa sulla pkrumins/xgoogleversione .


Correlati: una ricerca Web dalla riga di comando di Linux .

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.