Domande taggate «web-crawlers»

Un programma per computer che accede alle pagine Web per vari scopi (per raschiare contenuti, fornire ai motori di ricerca informazioni sul tuo sito, ecc.)

1
Richiesta di Bingbot per trafficbasedsspsitemap.xml che non esiste
I registri di un sito Web che gestisco mostrano una richiesta di un file inesistente da Bingbot. I dettagli della richiesta sono Percorso: /trafficbasedsspsitemap.xml Useragent: "Mozilla / 5.0 (compatibile; bingbot / 2.0; + http://www.bing.com/bingbot.htm )" Indirizzo IP: 65.55.213.244 (la ricerca inversa si risolve in msnbot-65-55-213-244.search.msn.com ) Quale motivo sta cercando …



4
Yahoo Search è uguale a Bing Search ora?
Abbiamo avuto alcuni seri problemi con il ragno (incredibilmente) mal scritto di Yahoo in passato , e di conseguenza li abbiamo bloccati. Marco Arment di Tumblr ha anche condiviso le sue frustrazioni con noi l'31 / 31/2009, che è stato un fattore nel nostro blocco. [Il ragno di Yahoo] ci …




3
Quale agente utente devo impostare?
C'è il bot Ask, che imposta questa intestazione: Mozilla/2.0 (compatible; Ask Jeeves/Teoma) Considerando questo, ho le seguenti domande: Se sto scrivendo un web crawler chiamato Pippo, quale user agent dovrei usare? Qual è la differenza se inserisco Mozilla/2.0o Mozilla/5.0? Qualsiasi altro suggerimento su come devo formattare il mio user agent …

3
SEO - Sito Web reattivo e menu duplicati
Ogni volta che creo un sito Web reattivo di solito creo 2 menu: 1 nascosto e utilizzato per dispositivi mobili e l'altro visualizzato come menu principale, quindi nascosto per mostrare il menu mobile. Ogni volta che si tratta di SEO e spider che navigano nel sito web mi viene offeso …

3
Robots.txt può trovarsi nella sottodirectory di un server?
Ho una sottodirectory che vorrei nascondere ai crawler web dei motori di ricerca. Un modo per farlo è utilizzare un robots.txtnella directory principale del server (il modo standard). Tuttavia, chiunque conosca l'URL del sito Web e abbia alcune conoscenze di base sul Web può accedere ai contenuti di robots.txt e …

7
Come bloccare i ragni baidu
La maggior parte delle mie visite proviene da ragni baidu. Non credo che aiuti affatto i motori di ricerca, quindi sto pensando a come bloccarli. Questo potrebbe essere fatto tramite iptables? Sto usando nginx come mio server web.



2
Devo bloccare i bot dal mio sito e perché?
I miei registri sono pieni di visitatori bot, spesso dell'Europa orientale e della Cina. I robot sono identificati come Ahrefs, Seznam, LSSRocketCrawler, Yandex, Sogou e così via. Devo bloccare questi robot dal mio sito e perché? Quali hanno uno scopo legittimo nell'aumentare il traffico sul mio sito? Molti di loro …


4
Lo stato di Ajax crawlable?
Ho visto che Google aveva una buona proposta / standard per rendere scorrevoli le applicazioni Ajax, tramite #! (hash bang). http://googlewebmastercentral.blogspot.com/2009/10/proposal-for-making-ajax-crawlable.html Le mie domande sono: Attualmente stanno già utilizzando questa "proposta" nel mondo reale? Altri motori di ricerca - Bing in particolare, lo stanno utilizzando o stanno pianificando di utilizzarlo?




2
Strumenti per i Webmaster di Google mi informa che i robot stanno bloccando l'accesso alla Sitemap
Questo è il mio robots.txt : User-agent: * Disallow: /wp-admin/ Disallow: /wp-includes/ Sitemap: http://www.example.org/sitemap.xml.gz Ma Strumenti per i Webmaster di Google mi dice che i robot stanno bloccando l'accesso alla Sitemap: Si è verificato un errore durante il tentativo di accedere alla tua Sitemap. Assicurati che la tua Sitemap segua …




1
Come funziona "Noindex:" in robots.txt?
Ho incontrato questo articolo nelle mie notizie SEO oggi. Sembra implicare che è possibile utilizzare le Noindex:direttive oltre alle Disallow:direttive standard in robots.txt . Disallow: /page-one.html Noindex: /page-two.html Sembra che impedirebbe ai motori di ricerca di eseguire la scansione della pagina uno e impedire loro di indicizzare la pagina due. …

2
Consenti solo ai bot di Google e Bing di eseguire la scansione di un sito
Sto usando il seguente file robots.txt per un sito: L'obiettivo è consentire a googlebot e bingbot di accedere al sito tranne la pagina /bedven/bedrijf/*e impedire a tutti gli altri bot di eseguire la scansione del sito. User-agent: googlebot Disallow: /bedven/bedrijf/* Crawl-delay: 10 User-agent: google Disallow: /bedven/bedrijf/* Crawl-delay: 10 User-agent: bingbot …

1
Combina user-agent in robots.txt
Gli user-agent possono essere elencati insieme, seguiti dalle loro regole comuni come in un robots.txt ? User-agent: Googlebot User-agent: ia_archiver #Alexa User-agent: BingPreview #Microsoft User-agent: bingbot #Microsoft User-agent: MSNBot #Microsoft User-agent: Slurp #Yahoo User-agent: Ask Jeeves/Teoma #Ask Disallow: /adm30_buds/

2
Inoltre, accedi agli URL negli interpreti
Ho eseguito un piccolo crawler Web e ho dovuto decidere quale agente utente utilizzare per esso. Gli elenchi degli agenti cingolati e Wikipedia suggeriscono il seguente formato: examplebot/1.2 (+http://www.example.com/bot.html) Tuttavia, alcuni robot omettono il segno più davanti all'URL. E mi chiedo cosa significhi in primo luogo, ma non sono riuscito …



2
Dovremmo abbandonare lo schema di scansione di AJAX?
Quindi ora Google ha deprecato lo schema di scansione di AJAX . Dicono di non preoccuparsi di implementarlo in nuovi siti Web, perché non è più necessario poiché Googlebot ora non ha problemi a guardare i contenuti dinamici. Dovremmo immediatamente fidarci di questa affermazione, o meglio aderire allo standard deprecato …

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.