Webmasters web-crawlers

4

Ho visto che Google aveva una buona proposta / standard per rendere scorrevoli le applicazioni Ajax, tramite #! (hash bang). http://googlewebmastercentral.blogspot.com/2009/10/proposal-for-making-ajax-crawlable.html Le mie domande sono: Attualmente stanno già utilizzando questa "proposta" nel mondo reale? Altri motori di ricerca - Bing in particolare, lo stanno utilizzando o stanno pianificando di utilizzarlo?

12 seo google ajax web-crawlers

4

I file robots.txt e sitemap.xml possono essere dinamici attraverso un reindirizzamento .htaccess?

Ho un sito multilingue e multidominio. Funziona attraverso un'installazione CMS unica (Drupal), quindi ho una singola directory root. Quindi, se ho un robots.txt statico, lì posso solo mostrare i file per un singolo dominio, per quanto ne so. Potrei mettere una linea in .htaccess Redirect 301 /robots.txt /robots.php (o istruzioni …

12 htaccess redirects sitemap web-crawlers

4

Google non esegue la scansione dei file CDN

Ho notato che Google Webmaster Tools sta segnalando molte risorse bloccate nel mio sito Web. In questo momento tutte le "risorse bloccate" sono .css, .js e immagini (.jpg, .png) che offro da Cloudfront CDN. Ho passato molto tempo a testare e cercare di capire perché Google non esegue la scansione …

11 google-search-console web-crawlers googlebot cdn amazon-cloudfront

2

Quali robot vale davvero la pena far entrare in un sito?

Avendo scritto un numero di bot e visto l'enorme quantità di bot casuali che accadono durante la scansione di un sito, mi chiedo come webmaster, quali robot vale davvero la pena far entrare in un sito? Il mio primo pensiero è che consentire i bot sul sito può potenzialmente portare …

11 seo web-crawlers robots.txt googlebot bingbot

2

Strumenti per i Webmaster di Google mi informa che i robot stanno bloccando l'accesso alla Sitemap

Questo è il mio robots.txt : User-agent: * Disallow: /wp-admin/ Disallow: /wp-includes/ Sitemap: http://www.example.org/sitemap.xml.gz Ma Strumenti per i Webmaster di Google mi dice che i robot stanno bloccando l'accesso alla Sitemap: Si è verificato un errore durante il tentativo di accedere alla tua Sitemap. Assicurati che la tua Sitemap segua …

11 google-search-console robots.txt web-crawlers

4

Il click bot di Adsense è il click bombing del mio sito

Ho un sito che in questo momento riceve circa 7.000 - 10.000 pagine visualizzate al giorno. A partire dall'01 / 07 / 07/12 ho notato che il CTR stava aumentando drammaticamente. Questi clic verrebbero accreditati e poi riaccreditati poco dopo. Quindi, erano ovviamente clic fraudolenti. Il giorno dopo ho avuto …

11 google-adsense advertising web-crawlers botattack

6

Qual è il modo migliore per escludere i bot dal conteggio delle visualizzazioni?

Il mio sito web conta le visualizzazioni dei visitatori su determinate pagine. Ho notato che Google e altri robot stanno "facendo clic" sul mio sito come un matto e alcune pagine ottengono conteggi di visualizzazioni non realistici (rispetto a quelli prodotti dagli umani). Sto chiedendo le migliori pratiche per escludere …

11 php mysql web-crawlers best-practices

1

Googlebot invia migliaia di richieste al nostro localizzatore di mappe e utilizza la quota API

Abbiamo una pagina di localizzazione di negozi sul sito dei nostri clienti. L'utente finale inserisce il proprio codice postale e un raggio di ricerca e visualizziamo i risultati su una mappa di Google. Di recente abbiamo iniziato a notare che il sito stava raggiungendo il limite di ricerca della mappa …

10 web-crawlers google-maps

1

Come funziona "Noindex:" in robots.txt?

Ho incontrato questo articolo nelle mie notizie SEO oggi. Sembra implicare che è possibile utilizzare le Noindex:direttive oltre alle Disallow:direttive standard in robots.txt . Disallow: /page-one.html Noindex: /page-two.html Sembra che impedirebbe ai motori di ricerca di eseguire la scansione della pagina uno e impedire loro di indicizzare la pagina due. …

10 web-crawlers robots.txt googlebot noindex

2

Consenti solo ai bot di Google e Bing di eseguire la scansione di un sito

Sto usando il seguente file robots.txt per un sito: L'obiettivo è consentire a googlebot e bingbot di accedere al sito tranne la pagina /bedven/bedrijf/*e impedire a tutti gli altri bot di eseguire la scansione del sito. User-agent: googlebot Disallow: /bedven/bedrijf/* Crawl-delay: 10 User-agent: google Disallow: /bedven/bedrijf/* Crawl-delay: 10 User-agent: bingbot …

10 web-crawlers robots.txt

1

Combina user-agent in robots.txt

Gli user-agent possono essere elencati insieme, seguiti dalle loro regole comuni come in un robots.txt ? User-agent: Googlebot User-agent: ia_archiver #Alexa User-agent: BingPreview #Microsoft User-agent: bingbot #Microsoft User-agent: MSNBot #Microsoft User-agent: Slurp #Yahoo User-agent: Ask Jeeves/Teoma #Ask Disallow: /adm30_buds/

10 web-crawlers robots.txt user-agent

2

Inoltre, accedi agli URL negli interpreti

Ho eseguito un piccolo crawler Web e ho dovuto decidere quale agente utente utilizzare per esso. Gli elenchi degli agenti cingolati e Wikipedia suggeriscono il seguente formato: examplebot/1.2 (+http://www.example.com/bot.html) Tuttavia, alcuni robot omettono il segno più davanti all'URL. E mi chiedo cosa significhi in primo luogo, ma non sono riuscito …

10 web-crawlers http user-agent

1

In che modo Google è riuscito a eseguire la scansione delle mie 403 pagine?

Avevo un paio di file privati in una directory nella mia cartella di scuola. Si potrebbe vedere che i file esistevano andando su myschool.edu/myusername/myfolder, ma tentando di accedere ai file stessi tramite myschool.edu/myusername/myfolder/myfile.html restituisce un errore 403. Eppure Google in qualche modo è riuscito a catturare i contenuti di quei …

10 web-crawlers security googlebot

6

Come abilitare (dis) correttamente il bot archive.org? Le cose sono cambiate, se è così quando?

Ho un sito Web che per lo più non voglio essere indicizzato dai motori di ricerca, ma voglio preservarlo per l'eternità su archive.org. Quindi il mio robots.txtinizia con questo: User-agent: * Disallow: / Oggi, secondo archive.org, devo aggiungere quanto segue nel mio robots.txtper consentire i loro robot: User-agent: ia_archiver Disallow: …

10 web-crawlers robots.txt internet-archive

2

Dovremmo abbandonare lo schema di scansione di AJAX?

Quindi ora Google ha deprecato lo schema di scansione di AJAX . Dicono di non preoccuparsi di implementarlo in nuovi siti Web, perché non è più necessario poiché Googlebot ora non ha problemi a guardare i contenuti dinamici. Dovremmo immediatamente fidarci di questa affermazione, o meglio aderire allo standard deprecato …

9 seo web-crawlers googlebot ajax

Domande taggate «web-crawlers»