Come posso fare per scaricare wget solo pagine non immagini CSS ecc?


10

Voglio scaricare un intero sito Web usando wget ma non voglio wget per scaricare immagini, video ecc.

Provai

wget -bqre robots=off -A.html example.com –user-agent=”Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.6) Gecko/20070725 Firefox/2.0.0.6″

ma quando lo faccio non scarica i file .php, scarica solo i file .html statici.

C'è una soluzione a questo problema con wget?

Risposte:


6

Hai detto esplicitamente a wget di accettare solo file che hanno .htmlcome suffisso.

Supponendo che le pagine php abbiano .php, puoi farlo:

wget -bqre robots=off -A.html,.php example.com –user-agent=”Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.6) Gecko/20070725 Firefox/2.0.0.6″

Nota che questo scaricherà l'html renderizzato, non la fonte del php. Se la pagina è sufficientemente dinamica, potresti non ottenere il risultato di rendering previsto.

Tuttavia, suggerirei che un altro strumento come httrack potrebbe fare un lavoro migliore - dipende esattamente da cosa devi fare.


3

-A prende un elenco, quindi -A.html, .php dovrebbe adattarsi al conto. Dovresti anche cercare in -R (richiede anche un elenco di rifiuto).


Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.