Come si ordina a wget di eseguire la scansione ricorsiva di un sito Web e scaricare solo determinati tipi di immagini?
Ho provato a usarlo per eseguire la scansione di un sito e scaricare solo immagini Jpeg:
wget --no-parent --wait=10 --limit-rate=100K --recursive --accept=jpg,jpeg --no-directories http://somedomain/images/page1.html
Tuttavia, anche se page1.html contiene centinaia di collegamenti a sottopagine, che a loro volta hanno collegamenti diretti alle immagini, wget riporta cose come "Rimozione di sottopagina13.html poiché dovrebbe essere rifiutata" e non scarica mai alcuna immagine, poiché nessuna è direttamente collegata a dalla pagina iniziale.
Suppongo che questo perché il mio --accept sia usato sia per dirigere la ricerca per indicizzazione che per filtrare il contenuto da scaricare, mentre lo voglio usato solo per dirigere il download del contenuto. Come posso fare in modo che wget esegua la ricerca per indicizzazione di tutti i collegamenti, ma scarichi solo file con determinate estensioni come * .jpeg?
EDIT: Inoltre, alcune pagine sono dinamiche e vengono generate tramite uno script CGI (ad esempio img.cgi? Fo9s0f989wefw90e). Anche se aggiungo cgi alla mia lista di accettazione (es. --Accept = jpg, jpeg, html, cgi) questi vengono sempre rifiutati. C'è un modo per aggirare questo?