Esistono altri buoni strumenti oltre a SeleniumRC in grado di recuperare pagine Web inclusi contenuti post-dipinti da JavaScript?

8

Un grande difetto di curlè che sempre più wepage stanno facendo dipingere il loro contenuto principale da una risposta JavaScript AJAX che si verifica dopo la risposta HTTP iniziale. curlnon raccoglie mai questo contenuto post-dipinto.

Quindi, per recuperare questi tipi di pagine Web dalla riga di comando, sono stato ridotto a scrivere script in Ruby che guidano SeleniumRC per avviare un'istanza di Firefox e quindi restituire il codice sorgente HTML dopo che queste chiamate AJAX sono state completate.

Sarebbe molto meglio avere una soluzione a riga di comando più snella per questo tipo di problema. Qualcuno ne sa qualcosa?

— dan
fonte

Nessuno ha suggerito nient'altro su Qualcuno qui ha esperienza nell'automazione di alcuni compiti nelle applicazioni web usando curl? , ma quella domanda non si poneva in modo specifico sul raschiare Javascript.

— Gilles 'SO- smetti di essere malvagio' il

2

Di recente ho iniziato a utilizzare WebDriver da Selenium 2 in Java. Esiste un driver chiamato HtmlUnitDriver che supporta pienamente JavaScript ma non attiva un browser reale.

Non è una soluzione leggera ma fa il lavoro.

Ho progettato il codice per l'esecuzione dalla riga di comando e salvare i dati Web in file.

— Michael Gantz
fonte

2

Hai considerato Watir?

http://watir.com/

Dopo aver aggiunto il pacchetto, è possibile eseguirlo come file autonomo o da irbriga per riga dopo include 'watir-webdriver'. Ho trovato più reattivo di selenium-webdriver, ma senza la GUI di registrazione test per aiutare a elaborare condizioni di test complesse.

— Rogue_Leader
fonte