Scarica in modo ricorsivo con wget

32

Ho un problema con il seguente comando wget:

wget -nd -r -l 10 http://web.archive.org/web/20110726051510/http://feedparser.org/docs/

Dovrebbe scaricare in modo ricorsivo tutti i documenti collegati sul Web originale ma scarica solo due file ( index.htmlerobots.txt ).

Come posso ottenere il download ricorsivo di questo Web?

wget

— xralf
fonte

40

wgetdi default onora lo standard robots.txt per le pagine di scansione, proprio come fanno i motori di ricerca, e per archive.org, non consente l'intera sottodirectory / web /. Per sostituire, utilizzare -e robots=off,

wget -nd -r -l 10 -e robots=off http://web.archive.org/web/20110726051510/http://feedparser.org/docs/

— Ulrich Schwarz
fonte

Grazie. C'è qualche opzione per memorizzare ogni collegamento una sola volta? Forse dovrei ridurre 10al numero più basso, ma è difficile da indovinare. Ora c'è un file introduction.html, introduction.html.1, introduction.html.2e io invece concluso il processo.

— Xralf,

E i collegamenti sono diretti al web. L' --mirroropzione per i collegamenti è diretta al filesystem?

— Xralf,

1

@xralf: beh, stai usando -nd , quindi diversi index.htmls vengono inseriti nella stessa directory e senza -k, non otterrai la riscrittura dei collegamenti.

— Ulrich Schwarz,

12

$ wget --random-wait -r -p -e robots=off -U Mozilla \
    http://web.archive.org/web/20110726051510/http://feedparser.org/docs/

Scarica in modo ricorsivo il contenuto dell'URL.

--random-wait - wait between 0.5 to 1.5 seconds between requests.
-r - turn on recursive retrieving.
-e robots=off - ignore robots.txt.
-U Mozilla - set the "User-Agent" header to "Mozilla". Though a better choice is a real User-Agent like "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.1; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729)".

Alcune altre opzioni utili sono:

--limit-rate=20k - limits download speed to 20kbps.
-o logfile.txt - log the downloads.
-l 0 - remove recursion depth (which is 5 by default).
--wait=1h - be sneaky, download one file every hour.

— Nikhil Mulley
fonte

-l 0 - remove recursion depth (which is 5 by default)+1

— Dani