Domande taggate «html-content-extraction»


30
Estrazione di testo da file HTML tramite Python
Vorrei estrarre il testo da un file HTML usando Python. Voglio essenzialmente lo stesso output che otterrei se copiassi il testo da un browser e lo incollassi nel blocco note. Vorrei qualcosa di più robusto dell'utilizzo di espressioni regolari che potrebbero non riuscire su HTML scarsamente formato. Ho visto molte …

8
Estrai parte di una corrispondenza regex
Voglio un'espressione regolare per estrarre il titolo da una pagina HTML. Attualmente ho questo: title = re.search('<title>.*</title>', html, re.IGNORECASE).group() if title: title = title.replace('<title>', '').replace('</title>', '') Esiste un'espressione regolare per estrarre solo il contenuto di <title> in modo da non dover rimuovere i tag?

10
BeautifulSoup Grab Visible Webpage Text
Fondamentalmente, voglio usare BeautifulSoup per afferrare rigorosamente il testo visibile su una pagina web. Ad esempio, questa pagina web è il mio caso di prova. E principalmente voglio solo ottenere il corpo del testo (articolo) e forse anche alcuni nomi di tabulazioni qua e là. Ho provato il suggerimento in …
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.