In sostanza, voglio eseguire la scansione di un intero sito con Wget, ma non mi serve MAI scaricare altre risorse (ad esempio immagini, CSS, JS, ecc.). Voglio solo i file HTML.
Le ricerche su Google sono completamente inutili.
Ecco un comando che ho provato:
wget --limit-rate=200k --no-clobber --convert-links --random-wait -r -E -e robots=off -U "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/32.0.1700.102 Safari/537.36" -A html --domain=www.example.com http://www.example.com
Il nostro sito è ibrido flat-PHP e CMS. Così, HTML "file" potrebbe essere /path/to/page
, /path/to/page/
, /path/to/page.php
, o /path/to/page.html
.
Ho anche incluso, -R js,css
ma scarica comunque i file, POI li rifiuta (inutile spreco di larghezza di banda, CPU e carico del server!).
Length: 558 [text/css]
sui file che non desidero. Se potessi interrompere la richiesta se l'intestazione non ritorna text/html
, sarei euforico.