Sto cercando di rispecchiare un blog, ad esempio www.example.com
, con wget
.
Uso wget con le seguenti opzioni (le variabili della shell sono sostituite correttamente):
wget -m -p -H -k -E -np \
-w 1 \
--random-wait \
--restrict-file-names=windows \
-P $folder \
-Q${quota}m \
-t 3 \
--referer=$url \
-U 'Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.8.1.6) Gecko/20070802 SeaMonkey/1.1.4' \
-e robots=off \
-D $domains
-- $url
Il blog contiene immagini che risiedono su altri domini.
Anche se ho specificato l' -p
opzione (scarica risorse della pagina collegate), queste immagini non vengono scaricate a meno che non specifichi esplicitamente ciascun dominio -D
nell'opzione.
Se ometto l' -D
opzione, wget seguirà ogni link esterno www.example.com
e scaricherà l'intera rete.
È possibile wget
semplicemente seguire tutti i collegamenti sottostanti www.example.com
e scaricare le risorse richieste di ogni pagina, sia che risiedano sullo stesso dominio o meno senza che sia necessario specificare esplicitamente ciascun dominio?
-D $domains
che il -H
. Senza di -H
essa dovrebbe rimanere all'interno del tuo dominio ma recuperare comunque le risorse della pagina diretta, anche quando si trovano in un dominio diverso.
wget -N -E -H -k -K -p
prima, e ho creato uno script per recuperare le immagini collegate mancanti.