Sto cercando un modulo Parser HTML per Python che possa aiutarmi a ottenere i tag sotto forma di elenchi / dizionari / oggetti Python.
Se ho un documento del modulo:
<html>
<head>Heading</head>
<body attr1='val1'>
<div class='container'>
<div id='class'>Something here</div>
<div>Something else</div>
</div>
</body>
</html>
quindi dovrebbe darmi un modo per accedere ai tag nidificati tramite il nome o l'id del tag HTML in modo che io possa sostanzialmente chiedergli di ottenere il contenuto / testo nel div
tag con class='container'
contenuto all'interno del body
tag o qualcosa di simile.
Se hai usato la funzione "Inspect element" di Firefox (vedi HTML) sapresti che ti dà tutti i tag in un bel modo annidato come un albero.
Preferirei un modulo integrato ma ciò potrebbe richiedere un po 'troppo.
Ho affrontato molte domande su Stack Overflow e alcuni blog su Internet e la maggior parte di essi suggerisce BeautifulSoup o lxml o HTMLParser, ma alcuni di questi dettagli descrivono la funzionalità e finiscono semplicemente come un dibattito su quale è più veloce / più efficace.