Devo strappare un sito via HTTP. Devo scaricare le immagini, HTML, CSS e JavaScript e organizzarlo in un file system.
Qualcuno sa come fare questo?
Devo strappare un sito via HTTP. Devo scaricare le immagini, HTML, CSS e JavaScript e organizzarlo in un file system.
Qualcuno sa come fare questo?
Risposte:
wget -erobots=off --no-parent --wait=3 --limit-rate=20K -r -p -U "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)" -A htm,html,css,js,json,gif,jpeg,jpg,bmp http://example.com
Questo funziona nella console.
questo prenderà un sito, attenderà 3 secondi tra le richieste, limiterà la velocità di download in modo che non uccida il sito e si maschera in un modo che lo fa sembrare solo un browser in modo che il sito non ti interrompa usando un meccanismo anti-sanguisuga.
Nota il -A
parametro che indica un elenco dei tipi di file che desideri scaricare.
Puoi anche usare un altro tag, -D domain1.com,domain2.com
per indicare una serie di domini che vuoi scaricare se hanno un altro server o altro per l'hosting di diversi tipi di file. Non esiste un modo sicuro per automatizzarlo in tutti i casi, se non si ottengono i file.
wget
è comunemente preinstallato su Linux, ma può essere banalmente compilato per altri sistemi Unix o scaricato facilmente per Windows: GNUwin32 WGET
Usa questo per il bene e non per il male.
Buona soluzione gratuita: HTTrack
HTTrack è un'utilità di browser offline gratuita (GPL, libre / free) e facile da usare.
Ti permette di scaricare un sito Web da Internet in una directory locale, costruendo ricorsivamente tutte le directory, ottenendo HTML, immagini e altri file dal server sul tuo computer. HTTrack organizza la relativa struttura di collegamento del sito originale. Basta aprire una pagina del sito Web "speculare" nel browser e puoi navigare il sito da un collegamento all'altro, come se lo stessi visualizzando online. HTTrack può anche aggiornare un sito con mirroring esistente e riprendere i download interrotti. HTTrack è completamente configurabile e ha un sistema di aiuto integrato.
Sui sistemi Linux, "wget" fa questo, praticamente.
È stato anche portato su diverse altre piattaforme, come menzionano molte altre risposte.
Ovviamente WGet è stato menzionato alcune volte. La migliore interfaccia utente che ho trovato è
Ci sono altre interfacce utente per WGet in giro, alcune delle quali sono candidate per la peggiore domanda dell'interfaccia utente
Devi usare wget, che è disponibile per la maggior parte delle piattaforme. curl non richiederà documenti in modo ricorsivo, che è uno dei principali punti di forza di wget.
Linux: (solitamente incluso nella distribuzione) http://www.gnu.org/software/wget/
Windows: http://gnuwin32.sourceforge.net/packages/wget.htm
Mac: http: //www.geekology. co.za/blog/2009/02/macports-compile-and-install-open-source-software-on-mac-os-x/
Si prega di assicurarsi che non si stia martellando il sito Web - impostare ritardi adeguati tra le richieste e assicurarsi che rientri nei termini di servizio del sito.
-Adamo
In realtà, a seguito del mio commento nel post di GWLlosa, mi sono appena ricordato di aver installato GnuWin32 e sicuramente contiene una porta Windows di wget.
http://sourceforge.net/projects/gnuwin32/
GnuWin32 provides Win32-versions of GNU tools,
or tools with a similar open source licence.
The ports are native ports, that is they rely
only on libraries provided with any 32-bits
MS-Windows operating system, such as
MS-Windows 95 / 98 / 2000 / NT / XP
L'ho usato alcuni anni fa e ha funzionato bene. Solo Windows. Utilizzato per essere adware ma apparentemente non più:
wget --random-wait -r -p -e robots=off -U "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)" --limit-rate=20k -b http://www.example.com
-p
: parametro indica a wget di includere tutti i file, comprese le immagini.-e robots=off
: ignora le regole dei siti robots.txt-U "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)"
: stringa agente utente--random-wait
: evitare di essere nella lista nera--limit-rate=20k
: limita la velocità con cui scarica i file.-b
: continua wget dopo la disconnessione.
-c
(o --continue
) quando le cose vanno male e devo riavviare il processo.
Penso che il grabber del sito IDM sia la soluzione migliore, c'è anche Teleport pro
Gestione download gratuito può anche scaricare siti web completi.
Solo Windows penso.