Sto cercando di rispecchiare un blog, ad esempio www.example.com, con wget.
Uso wget con le seguenti opzioni (le variabili della shell sono sostituite correttamente):
wget -m -p -H -k -E -np \
-w 1 \
--random-wait \
--restrict-file-names=windows \
-P $folder \
-Q${quota}m \
-t 3 \
--referer=$url \
-U 'Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.8.1.6) Gecko/20070802 SeaMonkey/1.1.4' \
-e robots=off \
-D $domains
-- $url
Il blog contiene immagini che risiedono su altri domini.
Anche se ho specificato l' -popzione (scarica risorse della pagina collegate), queste immagini non vengono scaricate a meno che non specifichi esplicitamente ciascun dominio -Dnell'opzione.
Se ometto l' -Dopzione, wget seguirà ogni link esterno www.example.come scaricherà l'intera rete.
È possibile wgetsemplicemente seguire tutti i collegamenti sottostanti www.example.come scaricare le risorse richieste di ogni pagina, sia che risiedano sullo stesso dominio o meno senza che sia necessario specificare esplicitamente ciascun dominio?
-D $domainsche il -H. Senza di -Hessa dovrebbe rimanere all'interno del tuo dominio ma recuperare comunque le risorse della pagina diretta, anche quando si trovano in un dominio diverso.
wget -N -E -H -k -K -pprima, e ho creato uno script per recuperare le immagini collegate mancanti.