Sto scrivendo un crawler in Ruby (1.9) che utilizza molto HTML da molti siti casuali.
Quando ho provato a estrarre i collegamenti, ho deciso di usare solo al .scan(/href="(.*?)"/i)
posto di nokogiri / hpricot (maggiore velocità). Il problema è che ora ricevo molti " invalid byte sequence in UTF-8
" errori.
Da quello che ho capito, la net/http
libreria non ha opzioni specifiche di codifica e il materiale che arriva non è fondamentalmente etichettato correttamente.
Quale sarebbe il modo migliore per lavorare effettivamente con i dati in arrivo? Ho provato .encode
con le opzioni di sostituzione e non valide impostate, ma finora nessun successo ...
'U*'
annulla 'C*'
?