Crea risorse per la pagina di download di wget su un dominio diverso


16

Come usi wget per scaricare un intero sito (dominio A) quando le sue risorse sono su un altro dominio (dominio B)?
Ho provato:
wget -r --level=inf -p -k -E --domains=domainA,domainB http://www.domainA


Wow! Nessuno dopo tutto questo tempo?
Parsa,

Il motivo per cui il comando non funziona è perché l'utilizzo --domainsda solo non si --span-hostsattiva. L'aggiunta --span-hostsavrebbe risolto il problema. : |
Parsa,

Risposte:


14
wget --recursive --level=inf --page-requisites --convert-links --html-extension \
     --span-hosts=domainA,domainB url-on-domainA

AGGIORNAMENTO: ricordo che il comando sopra ha funzionato per me in passato (era il 2010 e all'epoca stavo usando GNU Tools per Windows ); tuttavia ho dovuto modificarlo come segue quando volevo usarlo oggi:

wget --recursive --level=inf --page-requisites --convert-links \
     --adjust-extension --span-hosts --domains=domainA,domainB domainA

La scorciatoia per questo sarebbe: wget -rEDpkH -l inf domainA,domainB domainA

  • -r = --recursive
  • -l <depth> = --level=<depth>
  • -E = --adjust-extension
  • -p = --page-requisites
  • -K = --backup-converted
  • -k = --convert-links
  • -D <domain-list> = --domain-list=<domain-list>
  • -H = --span-hosts
  • -np = --no-parent
  • -U <agent-string> = --user-agent=<agent-string>

Manuale GNU Wget: https://www.gnu.org/software/wget/manual/wget.html


Ottengo: wget: --span-hosts: booleano non valido domainA,domainB'; use acceso 'o' spento '. Dopo aver cambiato su on, non funziona.
Matthew Flaschen,

@MatthewFlaschen Quello che ho scritto qui ha funzionato per me. Potresti fornire gli argomenti che hai usato?
Parsa,

Non ho il comando esatto che ho eseguito prima. Tuttavia, ho lo stesso problema con: wget --recursive --level=inf --page-requisites --convert-links --html-extension --span-hosts=example.org,iana.org example.org sto usando GNU Wget 1.13.4 su Debian.
Matthew Flaschen,

3
Prova --span-hosts --domains=example.org,iana.org: penso che --span-hostsdebba essere un valore booleano, quindi utilizzi --domainsper specificare quali host devono estendersi.
Eric Mill,

Konklone, --span-hosts è un booleano dall'1.12 in poi, non lo sapevo. @MatthewFlaschen, ho aggiornato la risposta. A proposito, funzionerà ancora su 1.11 e precedenti, se stai usando GNU Tools per Windows.
Parsa,

1

wget --recursive --level = inf --page-requisites --convert-links --html-extension -rH -DdomainA, domainB domainA


Questo in parte funziona. Tuttavia, per qualche motivo, non sembra funzionare se l'URL (alla fine) è un reindirizzamento. Inoltre, scarica anche i collegamenti, non solo i requisiti di pagina. Inoltre, -r e --recursive sono gli stessi.
Matthew Flaschen,


-1

Prendi in considerazione l'utilizzo di HTTrack . Ha più opzioni durante la scansione di contenuti su altri domini rispetto a wget. Usare wget con --span-hosts, --domain e - accetta dove non è sufficiente per le mie esigenze ma HTTrack ha fatto il lavoro. Ricordo che l'impostazione del limite di reindirizzamenti su altri domini ha aiutato molto.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.