Volevo scaricare tutti i file da una pagina web. Ci ho provato wget
ma non ci sono riuscito, quindi ho deciso per il percorso Python e ho trovato questo thread.
Dopo averlo letto, ho realizzato una piccola applicazione da riga di comando soupget
, espandendo le eccellenti risposte di PabloG e Stan e aggiungendo alcune utili opzioni.
Utilizza BeatifulSoup per raccogliere tutti gli URL della pagina e quindi scaricare quelli con l'estensione o le estensioni desiderate. Finalmente può scaricare più file in parallelo.
Ecco qui:
#!/usr/bin/env python3
# -*- coding: utf-8 -*-
from __future__ import (division, absolute_import, print_function, unicode_literals)
import sys, os, argparse
from bs4 import BeautifulSoup
# --- insert Stan's script here ---
# if sys.version_info >= (3,):
# def download_file(url, dest=None):
# --- new stuff ---
def collect_all_url(page_url, extensions):
Recovers all links in page_url checking for all the desired extensions
conn = urllib2.urlopen(page_url)
html = conn.read()
soup = BeautifulSoup(html, 'lxml')
links = soup.find_all('a')
results = []
for tag in links:
link = tag.get('href', None)
if link is not None:
for e in extensions:
if e in link:
# Fallback for badly defined links
# checks for missing scheme or netloc
if bool(urlparse.urlparse(link).scheme) and bool(urlparse.urlparse(link).netloc):
return results
if __name__ == "__main__": # Only run if this file is called directly
# Command line arguments
parser = argparse.ArgumentParser(
description='Download all files from a webpage.')
'-u', '--url',
help='Page url to request')
'-e', '--ext',
help='Extension(s) to find')
'-d', '--dest',
help='Destination where to save the files')
'-p', '--par',
action='store_true', default=False,
help="Turns on parallel download")
args = parser.parse_args()
# Recover files to download
all_links = collect_all_url(args.url, args.ext)
# Download
if not args.par:
for l in all_links:
filename = download_file(l, args.dest)
except Exception as e:
print("Error while downloading: {}".format(e))
from multiprocessing.pool import ThreadPool
results = ThreadPool(10).imap_unordered(
lambda x: download_file(x, args.dest), all_links)
for p in results:
Un esempio del suo utilizzo è:
python3 soupget.py -p -e <list of extensions> -d <destination_folder> -u <target_webpage>
E un vero esempio se vuoi vederlo in azione:
python3 soupget.py -p -e .xlsx .pdf .csv -u https://healthdata.gov/dataset/chemicals-cosmetics