Escludi l'elenco di file specifici in wget


7

Sto provando a scaricare molte pagine da un sito Web su dial-up e può essere brutalmente lento. Ho quasi ottenuto il wgetcomando perfetto , ma poiché sto scaricando pagine dallo stesso sito, si wgetperde tempo a scaricare le stesse immagini standard per ogni pagina.

Se conosco il nome delle immagini di pagina predefinite, c'è un modo per wgetignorarle e quindi evitare di scaricare quelle per ogni pagina?

Ecco un esempio di uno dei comandi wget che il mio script shell genera in un altro script shell per scaricare tutte le pagine:

mkdir candy-canes-on-the-flannel-board-in-preschool
cd candy-canes-on-the-flannel-board-in-preschool
wget -p -nd -A jpg,html -k http://www.teachpreschool.org/2011/12/candy-canes-on-the-flannel-board-in-preschool/
wget -c --random-wait --timeout=30 --user-agent="Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.0.3) Gecko/2008092416 Firefox/3.0.3" http://www.teachpreschool.org/2011/12/candy-canes-on-the-flannel-board-in-preschool/ -O "candy-canes-on-the-flannel-board-in-preschool"
rm Baby-and-Toddler.jpg Childrens-Books.jpg Creative-Art.jpg Felt-Fun.jpg Happy_Rainbow-e1338766526528.jpg index.html Language-and-Literacy.jpg Light-table-Button.jpg Math.jpg Outdoor-Play.jpg outer-jacket1-300x153.jpg preschoolspot-button-small.jpg robots.txt Science-and-Nature.jpg Signature-2.jpg Story-Telling.jpg Tags-on-Preschool.jpg Teaching-Two-and-Three-Year-olds.jpg
cd ../

Ora mi rendo conto che la sceneggiatura non è probabilmente così esperta come potrebbe essere, ma sta facendo quello di cui ho bisogno al momento, tranne che puoi vedere dal rmcomando che vorrei solo impedire wgetdi scaricare i file in primo luogo, se possibile.

Ho quasi dimenticato di menzionare, ci sono due wgetcomandi e questo perché il primo scarica la pagina come index.htmle per qualche motivo non si apre nel mio browser, tuttavia, quando lo apro e lo guardo in vimtutto il contenuto della pagina è lì, quindi non sono sicuro del perché non si apre. Ma se do solo il secondo wgetcomando com'è allora quella pagina, lo stesso file con un nome alternativo, si apre bene. Qualcosa che se potessi risolvere aiuterebbe anche a semplificare il processo.


Quale wget stai usando? Posso aiutarti se hai qualcosa come wget-1.13.4 (GNU)
Ярослав Рахматуллин,

Risposte:


1

Wget ha --reject rejlistun'opzione che puoi usare. L'elenco di rifiuto è un elenco di modelli di nome file.

ha anche -ncun'opzione per evitare il download e la sovrascrittura di file esistenti.


0

Ho anche riscontrato questo problema e successivamente risolto in questo modo: "--reject-regex logout", altro: wget-devTips

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.