Quindi sto provando a creare uno script Python che scarica i fumetti web e li mette in una cartella sul mio desktop. Ho trovato alcuni programmi simili qui che fanno qualcosa di simile, ma nulla di simile a ciò di cui ho bisogno. Quello che ho trovato più simile è proprio qui ( http://bytes.com/topic/python/answers/850927-problem-using-urllib-download-images ). Ho provato a usare questo codice:
>>> import urllib
>>> image = urllib.URLopener()
>>> image.retrieve("http://www.gunnerkrigg.com//comics/00000001.jpg","00000001.jpg")
('00000001.jpg', <httplib.HTTPMessage instance at 0x1457a80>)
Ho quindi cercato nel mio computer un file "00000001.jpg", ma tutto quello che ho trovato è stata la sua cache. Non sono nemmeno sicuro che abbia salvato il file sul mio computer. Una volta capito come scaricare il file, penso di sapere come gestire il resto. In sostanza, basta usare un ciclo for e dividere la stringa in "00000000". "Jpg" e incrementare "00000000" fino al numero più grande, che dovrei in qualche modo determinare. Qualche consiglio sul modo migliore per farlo o su come scaricare correttamente il file?
Grazie!
MODIFICA 15/06/10
Ecco lo script completato, salva i file in qualsiasi directory tu scelga. Per qualche strana ragione, i file non si stavano scaricando e lo hanno fatto. Qualche suggerimento su come ripulirlo sarebbe molto apprezzato. Attualmente sto cercando di scoprire come esistono molti fumetti sul sito in modo da poterne avere solo uno più recente, piuttosto che far uscire il programma dopo che sono state sollevate alcune eccezioni.
import urllib
import os
comicCounter=len(os.listdir('/file'))+1 # reads the number of files in the folder to start downloading at the next comic
errorCount=0
def download_comic(url,comicName):
"""
download a comic in the form of
url = http://www.example.com
comicName = '00000000.jpg'
"""
image=urllib.URLopener()
image.retrieve(url,comicName) # download comicName at URL
while comicCounter <= 1000: # not the most elegant solution
os.chdir('/file') # set where files download to
try:
if comicCounter < 10: # needed to break into 10^n segments because comic names are a set of zeros followed by a number
comicNumber=str('0000000'+str(comicCounter)) # string containing the eight digit comic number
comicName=str(comicNumber+".jpg") # string containing the file name
url=str("http://www.gunnerkrigg.com//comics/"+comicName) # creates the URL for the comic
comicCounter+=1 # increments the comic counter to go to the next comic, must be before the download in case the download raises an exception
download_comic(url,comicName) # uses the function defined above to download the comic
print url
if 10 <= comicCounter < 100:
comicNumber=str('000000'+str(comicCounter))
comicName=str(comicNumber+".jpg")
url=str("http://www.gunnerkrigg.com//comics/"+comicName)
comicCounter+=1
download_comic(url,comicName)
print url
if 100 <= comicCounter < 1000:
comicNumber=str('00000'+str(comicCounter))
comicName=str(comicNumber+".jpg")
url=str("http://www.gunnerkrigg.com//comics/"+comicName)
comicCounter+=1
download_comic(url,comicName)
print url
else: # quit the program if any number outside this range shows up
quit
except IOError: # urllib raises an IOError for a 404 error, when the comic doesn't exist
errorCount+=1 # add one to the error count
if errorCount>3: # if more than three errors occur during downloading, quit the program
break
else:
print str("comic"+ ' ' + str(comicCounter) + ' ' + "does not exist") # otherwise say that the certain comic number doesn't exist
print "all comics are up to date" # prints if all comics are downloaded
beautifulsoup
? Questo post compare nell'elenco delle beautifulsoup
domande più