Specchia un blog con wget


9

Sto cercando di rispecchiare un blog, ad esempio www.example.com, con wget.

Uso wget con le seguenti opzioni (le variabili della shell sono sostituite correttamente):

wget -m -p -H -k -E -np \
    -w 1 \
    --random-wait \
    --restrict-file-names=windows \
    -P $folder \
    -Q${quota}m \
    -t 3 \
    --referer=$url \
    -U 'Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.8.1.6) Gecko/20070802 SeaMonkey/1.1.4' \
    -e robots=off \
    -D $domains
    -- $url

Il blog contiene immagini che risiedono su altri domini.

Anche se ho specificato l' -popzione (scarica risorse della pagina collegate), queste immagini non vengono scaricate a meno che non specifichi esplicitamente ciascun dominio -Dnell'opzione.

Se ometto l' -Dopzione, wget seguirà ogni link esterno www.example.come scaricherà l'intera rete.

È possibile wgetsemplicemente seguire tutti i collegamenti sottostanti www.example.come scaricare le risorse richieste di ogni pagina, sia che risiedano sullo stesso dominio o meno senza che sia necessario specificare esplicitamente ciascun dominio?


Mi piacerebbe trovare una buona risposta anche a questa. Mi sono imbattuto nella stessa situazione e non sono riuscito a trovare un'unica invocazione di wget che lo ha fatto. Ho finito per usare wget -N -E -H -k -K -pprima, e ho creato uno script per recuperare le immagini collegate mancanti.
Lemonsqueeze,

5
Secondo questo , httrack è un killer per questo. Ci proverò la prossima volta invece di wget.
Lemonsqueeze,

Supponendo che il tuo blog (meno le risorse della pagina) non si estenda su più domini, prova a rimuovere sia il -D $domainsche il -H. Senza di -Hessa dovrebbe rimanere all'interno del tuo dominio ma recuperare comunque le risorse della pagina diretta, anche quando si trovano in un dominio diverso.
Blubberdiblub,

Risposte:


1

No, l'unico modo è specificare i domini che vuoi che wget segua usando -D o --domains = [elenco domini] (sotto forma di elenco separato da virgole)

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.