Come recuperare tutti i file * .html dal sito Web utilizzando gli strumenti della riga di comando di Unix e l'espressione regolare

Vorrei recuperare tutti i file .html da un sito Web che ha un determinato testo sul suo nome:

per esempio. this_is_good_site.html

Quindi, vorrei scaricare i file .html con una parola "buono" sul suo nome. Ho provato wget e curl, ma non ho capito come posso scegliere quei file usando un'espressione regolare? Esiste una soluzione Python o Perl, se gli strumenti da riga di comando su Unix non possono farlo?

Risposte:

Bene, se vuoi farlo con Python potresti esaminare urlib2 - probabilmente avresti anche più fortuna con questa domanda su StackOverflow.

— Darren Newton
fonte

Mentre stai usando un ambiente Unix, prova questo usando le opzioni Accetta / Rifiuta Ricorsivo di wget ;

wget -r -A "*good*" <site_to_download>

Ciò eseguirà un download ricorsivo (-r) del sito e accetterà solo percorsi (-A) che corrispondono al modello ("* buono *")

— Toby Jackson
fonte

Prova la copiatrice del sito Web HTTrack o un programma simile, meglio della riga di comando. scarica tutto in una directory, ordina per .html copia e incollali tutti da qualche altra parte, elimina gli avanzi

http://www.httrack.com/

— alfa1
fonte

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.

Licensed under cc by-sa 3.0 with attribution required.