Domande taggate «web-crawler»


2
Invio di "User-agent" utilizzando la libreria Requests in Python
Voglio inviare un valore "User-agent"durante la richiesta di una pagina Web utilizzando le richieste Python. Non sono sicuro se sia corretto inviarlo come parte dell'intestazione, come nel codice seguente: debug = {'verbose': sys.stderr} user_agent = {'User-agent': 'Mozilla/5.0'} response = requests.get(url, headers = user_agent, config=debug) Le informazioni di debug non mostrano …





2
TypeError: non è possibile utilizzare uno schema di stringa su un oggetto simile a byte in re.findall ()
Sto cercando di imparare a recuperare automaticamente gli URL da una pagina. Nel seguente codice sto cercando di ottenere il titolo della pagina web: import urllib.request import re url = "http://www.google.com" regex = r'<title>(,+?)</title>' pattern = re.compile(regex) with urllib.request.urlopen(url) as response: html = response.read() title = re.findall(pattern, html) print(title) E …

11
Rilevamento di web crawler "invisibili"
Quali sono le opzioni disponibili per rilevare i web crawler che non vogliono essere rilevati? (So ​​che le tecniche di rilevamento degli elenchi consentiranno al programmatore intelligente di crawler stealth di creare uno spider migliore, ma non credo che saremo mai in grado di bloccare comunque i crawler stealth intelligenti, …
107 web-crawler 


5
Come trovare tutti i link / pagine su un sito web
È possibile trovare tutte le pagine e i collegamenti su QUALSIASI sito web? Vorrei inserire un URL e produrre un albero di directory di tutti i collegamenti da quel sito? Ho guardato HTTrack ma questo scarica l'intero sito e ho semplicemente bisogno dell'albero delle directory.

8
Ottieni un elenco di URL da un sito [chiuso]
Chiuso. Questa domanda non soddisfa le linee guida di Stack Overflow . Attualmente non accetta risposte. Vuoi migliorare questa domanda? Aggiorna la domanda in modo che sia in argomento per Stack Overflow. Chiuso 4 anni fa . Migliora questa domanda Sto distribuendo un sito sostitutivo per un cliente ma non …

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.