Recentemente ho imparato che usare una regex per analizzare l'HTML di un sito Web per ottenere i dati di cui hai bisogno non è il miglior modo di agire.
Quindi la mia domanda è semplice: qual è il modo migliore / più efficiente e generalmente stabile per ottenere questi dati?
Dovrei notare che:
- Non ci sono API
- Non esiste altra fonte da cui posso ottenere i dati (nessun database, feed e simili)
- Non è possibile accedere ai file di origine. (Dati da siti Web pubblici)
- Supponiamo che i dati siano di testo normale, visualizzati in una tabella in una pagina HTML
Attualmente sto usando Python per il mio progetto, ma una soluzione / suggerimenti indipendenti dal linguaggio sarebbe carino.
Come domanda secondaria: come faresti a farlo quando la pagina web è costruita da chiamate Ajax?
MODIFICARE:
Nel caso dell'analisi HTML, so che non esiste un modo realmente stabile per ottenere i dati. Non appena la pagina cambia, il tuo parser è pronto. Ciò che intendo con stable in questo caso è: un modo efficiente per analizzare la pagina, che mi dà sempre gli stessi risultati (per lo stesso set di dati ovviamente) a condizione che la pagina non cambi.