In sostanza, voglio eseguire la scansione di un intero sito con Wget, ma non mi serve MAI scaricare altre risorse (ad esempio immagini, CSS, JS, ecc.). Voglio solo i file HTML.
Le ricerche su Google sono completamente inutili.
Ecco un comando che ho provato:
wget --limit-rate=200k --no-clobber --convert-links --random-wait -r -E -e robots=off -U "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/32.0.1700.102 Safari/537.36" -A html --domain=www.example.com http://www.example.com
Il nostro sito è ibrido flat-PHP e CMS. Così, HTML "file" potrebbe essere /path/to/page, /path/to/page/, /path/to/page.php, o /path/to/page.html.
Ho anche incluso, -R js,cssma scarica comunque i file, POI li rifiuta (inutile spreco di larghezza di banda, CPU e carico del server!).
Length: 558 [text/css]sui file che non desidero. Se potessi interrompere la richiesta se l'intestazione non ritorna text/html, sarei euforico.