Vorrei sottoporre a scansione i collegamenti su www.website.com/XYZ e scaricare solo i collegamenti su www.website.com/ABC.
Sto usando il seguente comando wget per ottenere i file che voglio:
wget -I ABC -r -e robots=off --wait 0.25 http://www.website.com/XYZ
Funziona perfettamente quando uso wget 1.13.4. Ma il problema è che devo usare questo comando su un server che ha wget 1.11 e quando uso lo stesso comando, finisce per scaricare domini aggiuntivi come:
www.website.de
www.website.it
...
Come posso evitare questo problema? Ho provato a usare
--exclude domains=www.website.de,www.website.it
tuttavia ha continuato a scaricare quei domini.
Si noti inoltre che non posso usare --no-parent
poiché i file che voglio sono di livello superiore (voglio i file su website.com/ABC eseguendo la scansione dei collegamenti su website.com/XYZ).
Qualche suggerimento?
wget
non dovrebbe attraversare gli host per impostazione predefinita, ed è necessaria l' opzione -H
/ --span-hosts
per attraversare gli host quando si esegue una wget ricorsiva. "www.website.com" è un host completamente diverso da "www.website.de".
-H
è sempre stato richiesto di ricorrere all'esterno dell'host originale. Does -D www.website.com
aiuto?