Codifico molti parser. Fino ad ora, stavo usando il browser senza testa HtmlUnit per l'analisi e l'automazione del browser.
Ora, voglio separare entrambi i compiti.
Poiché l'80% del mio lavoro prevede solo l'analisi, voglio usare un parser HTML leggero perché ci vuole molto tempo in HtmlUnit per caricare prima una pagina, quindi ottenere il sorgente e quindi analizzarlo.
Voglio sapere quale parser HTML è il migliore. Il parser sarebbe migliore se è vicino al parser HtmlUnit.
MODIFICARE:
Per meglio, voglio almeno le seguenti funzionalità:
- Velocità
- Facilità di individuare qualsiasi HtmlElement dal suo "id" o "nome" o "tipo di tag".
Andrebbe bene per me se non pulisse il codice HTML sporco. Non ho bisogno di pulire alcuna fonte HTML. Ho solo bisogno di un modo più semplice per spostarmi tra HtmlElements e raccogliere dati da loro.