Recentemente ho imparato Python e sto immergendo la mano nella costruzione di un raschietto per il web. Non è niente di speciale; il suo unico scopo è quello di ottenere i dati da un sito Web di scommesse e farli inserire in Excel.
La maggior parte dei problemi è risolvibile e sto avendo un bel pasticcio in giro. Tuttavia sto colpendo un grosso ostacolo per un problema. Se un sito carica una tabella di cavalli ed elenca i prezzi attuali delle scommesse, questa informazione non è contenuta in nessun file sorgente. L'indizio è che questi dati sono talvolta attivi, con i numeri che vengono ovviamente aggiornati da alcuni server remoti. L'HTML sul mio PC ha semplicemente un buco in cui i loro server stanno trasmettendo tutti i dati interessanti di cui ho bisogno.
Ora la mia esperienza con i contenuti Web dinamici è bassa, quindi questa cosa è qualcosa che non riesco a risolvere.
Penso che Java o Javascript sia una chiave, questo si apre spesso.
Il raschietto è semplicemente un motore di confronto delle quote. Alcuni siti hanno API ma ne ho bisogno per quelli che non lo fanno. Sto usando la libreria scrapy con Python 2.7
Mi scuso se questa domanda è troppo aperta. In breve, la mia domanda è: come posso usare scrapy per raschiare questi dati dinamici in modo che io possa usarli? In modo da poter raccogliere questi dati sulle quote delle scommesse in tempo reale?
Firefox
estensioni come httpFox
o liveHttpHeaders
e carica una pagina che utilizza una richiesta Ajax. Scrapy non identifica automaticamente le richieste Ajax, devi cercare manualmente l'URL Ajax appropriato e quindi fare richiesta con quello.