Domande taggate «web-crawlers»

Un programma per computer che accede alle pagine Web per vari scopi (per raschiare contenuti, fornire ai motori di ricerca informazioni sul tuo sito, ecc.)

4
Lo stato di Ajax crawlable?
Ho visto che Google aveva una buona proposta / standard per rendere scorrevoli le applicazioni Ajax, tramite #! (hash bang). http://googlewebmastercentral.blogspot.com/2009/10/proposal-for-making-ajax-crawlable.html Le mie domande sono: Attualmente stanno già utilizzando questa "proposta" nel mondo reale? Altri motori di ricerca - Bing in particolare, lo stanno utilizzando o stanno pianificando di utilizzarlo?




2
Strumenti per i Webmaster di Google mi informa che i robot stanno bloccando l'accesso alla Sitemap
Questo è il mio robots.txt : User-agent: * Disallow: /wp-admin/ Disallow: /wp-includes/ Sitemap: http://www.example.org/sitemap.xml.gz Ma Strumenti per i Webmaster di Google mi dice che i robot stanno bloccando l'accesso alla Sitemap: Si è verificato un errore durante il tentativo di accedere alla tua Sitemap. Assicurati che la tua Sitemap segua …




1
Come funziona "Noindex:" in robots.txt?
Ho incontrato questo articolo nelle mie notizie SEO oggi. Sembra implicare che è possibile utilizzare le Noindex:direttive oltre alle Disallow:direttive standard in robots.txt . Disallow: /page-one.html Noindex: /page-two.html Sembra che impedirebbe ai motori di ricerca di eseguire la scansione della pagina uno e impedire loro di indicizzare la pagina due. …

2
Consenti solo ai bot di Google e Bing di eseguire la scansione di un sito
Sto usando il seguente file robots.txt per un sito: L'obiettivo è consentire a googlebot e bingbot di accedere al sito tranne la pagina /bedven/bedrijf/*e impedire a tutti gli altri bot di eseguire la scansione del sito. User-agent: googlebot Disallow: /bedven/bedrijf/* Crawl-delay: 10 User-agent: google Disallow: /bedven/bedrijf/* Crawl-delay: 10 User-agent: bingbot …

1
Combina user-agent in robots.txt
Gli user-agent possono essere elencati insieme, seguiti dalle loro regole comuni come in un robots.txt ? User-agent: Googlebot User-agent: ia_archiver #Alexa User-agent: BingPreview #Microsoft User-agent: bingbot #Microsoft User-agent: MSNBot #Microsoft User-agent: Slurp #Yahoo User-agent: Ask Jeeves/Teoma #Ask Disallow: /adm30_buds/

2
Inoltre, accedi agli URL negli interpreti
Ho eseguito un piccolo crawler Web e ho dovuto decidere quale agente utente utilizzare per esso. Gli elenchi degli agenti cingolati e Wikipedia suggeriscono il seguente formato: examplebot/1.2 (+http://www.example.com/bot.html) Tuttavia, alcuni robot omettono il segno più davanti all'URL. E mi chiedo cosa significhi in primo luogo, ma non sono riuscito …



2
Dovremmo abbandonare lo schema di scansione di AJAX?
Quindi ora Google ha deprecato lo schema di scansione di AJAX . Dicono di non preoccuparsi di implementarlo in nuovi siti Web, perché non è più necessario poiché Googlebot ora non ha problemi a guardare i contenuti dinamici. Dovremmo immediatamente fidarci di questa affermazione, o meglio aderire allo standard deprecato …

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.