Domande taggate «web-crawler»

5
Converti pagine Web in un file per ebook
Voglio scaricare HTML (esempio: http://www.brpreiss.com/books/opus6/ ) e unirmi a un HTML o ad un altro formato che posso usare sul lettore di ebook. I siti con libri gratuiti non hanno un paging standard, non sono blog o forum, quindi non sanno come eseguire la scansione e l'unione automatica.



4
Utilizzo di Wget per eseguire la scansione ricorsiva di un sito e scaricare immagini
Come si ordina a wget di eseguire la scansione ricorsiva di un sito Web e scaricare solo determinati tipi di immagini? Ho provato a usarlo per eseguire la scansione di un sito e scaricare solo immagini Jpeg: wget --no-parent --wait=10 --limit-rate=100K --recursive --accept=jpg,jpeg --no-directories http://somedomain/images/page1.html Tuttavia, anche se page1.html contiene …

4
Quanto è "legale" lo scraping del sito usando cURL? [chiuso]
Allo stato attuale, questa domanda non è adatta al nostro formato di domande e risposte. Ci aspettiamo che le risposte siano supportate da fatti, riferimenti o competenze, ma questa domanda probabilmente solleciterà dibattiti, argomenti, sondaggi o discussioni estese. Se ritieni che questa domanda possa essere migliorata e possibilmente riaperta, visita …


0
wget - limite che segue a link specifici
Voglio fare mirror del sito web ma limitare il seguito solo a link specifici. Comando: wget --recursive --page-requisites --html-extension --convert-links --domains linuxmagazine.pl http://www.linuxmagazine.pl/index.php/magazine/archiwum mi dà tutta la pagina. Voglio limitare wget a "nr XX" link o URI * / issues / *. È possibile?




1
wget: disabilita il recupero .html forzato
Quando si esegue un download ricorsivo, si specifica un modello tramite il parametro -R per wget da rifiutare, ma se questo file è un file HTML, wget scarica il file indipendentemente dal fatto che corrisponda o meno al modello. per esempio. wget -r -R "*dynamicfile*" example.com recupera ancora file come …
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.