Se richiedi il contenuto di gzip (usando l'intestazione accetta-codifica: gzip, che è corretta), allora ho capito che wget non può quindi leggere il contenuto. Quindi finirai con un singolo file gzip su disco, per la prima pagina che colpisci, ma nessun altro contenuto.
cioè non puoi usare wget per richiedere contenuti compressi con zip e per ricorrere allo stesso tempo all'intero sito.
Penso che ci sia una patch che consente a wget di supportare questa funzione ma non è nella versione di distribuzione predefinita.
Se si include il flag -S, è possibile sapere se il server Web risponde con il tipo di contenuto corretto. Per esempio,
wget -S --header="accept-encoding: gzip" wordpress.com
--2011-06-17 16:06:46-- http://wordpress.com/
Resolving wordpress.com (wordpress.com)... 72.233.104.124, 74.200.247.60, 76.74.254.126
Connecting to wordpress.com (wordpress.com)|72.233.104.124|:80... connected.
HTTP request sent, awaiting response...
HTTP/1.1 200 OK
Server: nginx
Date: Fri, 17 Jun 2011 15:06:47 GMT
Content-Type: text/html; charset=UTF-8
Connection: close
Vary: Accept-Encoding
Last-Modified: Fri, 17 Jun 2011 15:04:57 +0000
Cache-Control: max-age=190, must-revalidate
Vary: Cookie
X-hacker: If you're reading this, you should visit automattic.com/jobs and apply to join the fun, mention this header.
X-Pingback: http://wordpress.com/xmlrpc.php
Link: <http://wp.me/1>; rel=shortlink
X-nananana: Batcache
Content-Encoding: gzip
Length: unspecified [text/html]
La codifica del contenuto indica chiaramente gzip, tuttavia per linux.about.com (attualmente),
wget -S --header="accept-encoding: gzip" linux.about.com
--2011-06-17 16:12:55-- http://linux.about.com/
Resolving linux.about.com (linux.about.com)... 207.241.148.80
Connecting to linux.about.com (linux.about.com)|207.241.148.80|:80... connected.
HTTP request sent, awaiting response...
HTTP/1.1 200 OK
Date: Fri, 17 Jun 2011 15:12:56 GMT
Server: Apache
Set-Cookie: TMog=B6HFCs2H20kA1I4N; domain=.about.com; path=/; expires=Sat, 22-Sep-12 14:19:35 GMT
Set-Cookie: Mint=B6HFCs2H20kA1I4N; domain=.about.com; path=/
Set-Cookie: zBT=1; domain=.about.com; path=/
Vary: *
PRAGMA: no-cache
P3P: CP="IDC DSP COR DEVa TAIa OUR BUS UNI"
Cache-Control: max-age=-3600
Expires: Fri, 17 Jun 2011 14:12:56 GMT
Connection: close
Content-Type: text/html
Length: unspecified [text/html]
Restituisce text / html.
Poiché alcuni browser meno recenti presentano ancora problemi con il contenuto codificato gzip, molti siti lo abilitano solo in base all'identificazione del browser. Spesso lo disattivano per impostazione predefinita e lo disattivano solo quando sanno che il browser può supportarlo - e di solito non includono wget in quell'elenco. Ciò significa che potresti trovare che wget non restituisce mai contenuti gzip anche se il sito sembra farlo per il tuo browser.