Sto riscontrando problemi con i caratteri unicode da testo recuperato da diverse pagine Web (su siti diversi). Sto usando BeautifulSoup. Il problema è che l'errore non è sempre riproducibile; a volte funziona con alcune pagine e, a volte, fa un salto lanciando a UnicodeEncodeError. Ho provato praticamente tutto quello che …
Sto riscontrando problemi nell'analizzare gli elementi HTML con l'attributo "class" usando Beautifulsoup. Il codice è simile al seguente soup = BeautifulSoup(sdata) mydivs = soup.findAll('div') for div in mydivs: if (div["class"] == "stylelistrow"): print div Viene visualizzato un errore sulla stessa riga "dopo" lo script termina. File "./beautifulcoding.py", line 130, in …
... soup = BeautifulSoup(html, "lxml") File "/Library/Python/2.7/site-packages/bs4/__init__.py", line 152, in __init__ % ",".join(features)) bs4.FeatureNotFound: Couldn't find a tree builder with the features you requested: lxml. Do you need to install a parser library? Le uscite sopra sul mio terminale. Sono su Mac OS 10.7.x. Ho Python 2.7.1 e ho seguito …
Sto cercando di raschiare un sito Web, ma mi dà un errore. Sto usando il seguente codice: import urllib.request from bs4 import BeautifulSoup get = urllib.request.urlopen("https://www.website.com/") html = get.read() soup = BeautifulSoup(html) print(soup) E sto ottenendo il seguente errore: File "C:\Python34\lib\encodings\cp1252.py", line 19, in encode return codecs.charmap_encode(input,self.errors,encoding_table)[0] UnicodeEncodeError: 'charmap' codec …
TypeError: è richiesto un oggetto simile a byte, non 'str' ottenere l'errore sopra durante l'esecuzione sotto il codice python per salvare i dati della tabella HTML nel file CSV. non so come ottenere rideup.pls aiutarmi. import csv import requests from bs4 import BeautifulSoup url='http://www.mapsofindia.com/districts-india/' response=requests.get(url) html=response.content soup=BeautifulSoup(html,'html.parser') table=soup.find('table', attrs={'class':'tableizer-table'}) list_of_rows=[] …
soup.find("tagName", { "id" : "articlebody" }) Perché questo NON restituisce i <div id="articlebody"> ... </div>tag e le cose in mezzo? Non restituisce nulla. E so per certo che esiste perché lo sto fissando da soup.prettify() soup.find("div", { "id" : "articlebody" }) inoltre non funziona. ( EDIT: ho scoperto che BeautifulSoup …
Sto lavorando in Python e sto usando Flask. Quando eseguo il mio file Python principale sul mio computer, funziona perfettamente, ma quando attivo venv ed eseguo il file Flask Python nel terminale, dice che il mio file Python principale ha "No Module Named bs4". Qualsiasi commento o consiglio è molto …
Voglio creare un sito Web che mostri il confronto tra Amazon e il prezzo del prodotto e-bay. Quale di questi funzionerà meglio e perché? Ho una certa familiarità con BeautifulSoup ma non tanto con il crawler Scrapy .
Fondamentalmente, voglio usare BeautifulSoup per afferrare rigorosamente il testo visibile su una pagina web. Ad esempio, questa pagina web è il mio caso di prova. E principalmente voglio solo ottenere il corpo del testo (articolo) e forse anche alcuni nomi di tabulazioni qua e là. Ho provato il suggerimento in …
Voglio ottenere tutti i <a>tag che sono figli di <li>: <div> <li class="test"> <a>link1</a> <ul> <li> <a>link2</a> </li> </ul> </li> </div> So come trovare elementi con una classe particolare come questa: soup.find("li", { "class" : "test" }) Ma non so come trovare tutti quelli <a>che sono figli di <li class=test>ma …
Sto cercando di estrarre il contenuto di un singolo attributo "value" in un tag "input" specifico su una pagina web. Uso il codice seguente: import urllib f = urllib.urlopen("http://58.68.130.147") s = f.read() f.close() from BeautifulSoup import BeautifulStoneSoup soup = BeautifulStoneSoup(s) inputTag = soup.findAll(attrs={"name" : "stainfo"}) output = inputTag['value'] print str(output) …
Sto usando BeautifulSoup per raschiare un URL e avevo il seguente codice import urllib import urllib2 from BeautifulSoup import BeautifulSoup url = "http://www.example.com/servlet/av/ResultTemplate=AVResult.html" req = urllib2.Request(url) response = urllib2.urlopen(req) the_page = response.read() soup = BeautifulSoup(the_page) soup.findAll('td',attrs={'class':'empformbody'}) Ora nel codice precedente possiamo usare findAllper ottenere tag e informazioni ad essi correlati, …
Sto imparando Python requestse BeautifulSoup. Per un esercizio, ho scelto di scrivere un rapido parser di biglietti per il parcheggio di New York. Sono in grado di ottenere una risposta html che è piuttosto brutta. Devo prendere il filelineItemsTable e analizzare tutti i biglietti. Puoi riprodurre la pagina andando qui: …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.