Webmasters web-crawlers

Richiesta di Bingbot per trafficbasedsspsitemap.xml che non esiste

I registri di un sito Web che gestisco mostrano una richiesta di un file inesistente da Bingbot. I dettagli della richiesta sono Percorso: /trafficbasedsspsitemap.xml Useragent: "Mozilla / 5.0 (compatibile; bingbot / 2.0; + http://www.bing.com/bingbot.htm )" Indirizzo IP: 65.55.213.244 (la ricerca inversa si risolve in msnbot-65-55-213-244.search.msn.com ) Quale motivo sta cercando …

28 bing logging web-crawlers

C'è una differenza tra un robots.txt vuoto e nessun robots.txt?

Su un server web ora devo ammettere che ho notato che il file robots.txt è vuoto. Mi chiedevo se ci fosse una differenza tra un file robots.txt vuoto e nessun file. I crawler si comportano diversamente in questi due casi? Quindi, è sicuro eliminare un robots.txt vuoto?

28 web-crawlers robots.txt webserver

Impedire ai robot di eseguire la scansione di parti specifiche di una pagina

Come webmaster responsabile di un minuscolo sito che ha un forum, ricevo regolarmente lamentele da parte degli utenti che sia il motore di ricerca interno che le ricerche esterne (come quando usano Google) sono totalmente inquinate dalle firme dei miei utenti (stanno usando a lungo firme e questo fa parte …

28 html search-engines forum web-crawlers

Yahoo Search è uguale a Bing Search ora?

Abbiamo avuto alcuni seri problemi con il ragno (incredibilmente) mal scritto di Yahoo in passato , e di conseguenza li abbiamo bloccati. Marco Arment di Tumblr ha anche condiviso le sue frustrazioni con noi l'31 / 31/2009, che è stato un fattore nel nostro blocco. [Il ragno di Yahoo] ci …

25 user-agent bing yahoo web-crawlers

Il ragno di Google rende JavaScript?

Questa domanda è stata migrata da StackTranslate.it perché è possibile rispondere a Scambio stack Webmaster. Migrato 9 anni fa . Lo spider di Google sa come eseguire il rendering di JavaScript o solo HTML?

22 javascript google seo web-crawlers

Ottimo strumento per eseguire la scansione del mio sito e aiutarmi a trovare link non funzionanti e file non collegati [chiuso]

Chiuso. Questa domanda è fuori tema . Al momento non accetta risposte. Vuoi migliorare questa domanda? Aggiorna la domanda in modo che sia in argomento per lo scambio di stack dei webmaster. Chiuso 6 anni fa . Ho un sito legacy piuttosto grande con letteralmente migliaia di PDF che a …

21 site-maintenance web-crawlers dead-links

È possibile rallentare la frequenza di scansione di Baiduspider?

Molto è stato fatto della frequenza di scansione del ragno Baidu. È vero: "Baiduspider striscia come un matto." Ho sperimentato questo fenomeno in siti con cui lavoro. In almeno un caso, ho scoperto che Baiduspider esegue la scansione alla stessa frequenza di Googlebot, nonostante Baidu fornisca circa l'1% del traffico …

18 seo search-engines googlebot web-crawlers

Quale agente utente devo impostare?

C'è il bot Ask, che imposta questa intestazione: Mozilla/2.0 (compatible; Ask Jeeves/Teoma) Considerando questo, ho le seguenti domande: Se sto scrivendo un web crawler chiamato Pippo, quale user agent dovrei usare? Qual è la differenza se inserisco Mozilla/2.0o Mozilla/5.0? Qualsiasi altro suggerimento su come devo formattare il mio user agent …

18 user-agent web-crawlers

SEO - Sito Web reattivo e menu duplicati

Ogni volta che creo un sito Web reattivo di solito creo 2 menu: 1 nascosto e utilizzato per dispositivi mobili e l'altro visualizzato come menu principale, quindi nascosto per mostrare il menu mobile. Ogni volta che si tratta di SEO e spider che navigano nel sito web mi viene offeso …

16 seo web-crawlers googlebot navigation

Robots.txt può trovarsi nella sottodirectory di un server?

Ho una sottodirectory che vorrei nascondere ai crawler web dei motori di ricerca. Un modo per farlo è utilizzare un robots.txtnella directory principale del server (il modo standard). Tuttavia, chiunque conosca l'URL del sito Web e abbia alcune conoscenze di base sul Web può accedere ai contenuti di robots.txt e …

16 web-crawlers robots.txt

Come bloccare i ragni baidu

La maggior parte delle mie visite proviene da ragni baidu. Non credo che aiuti affatto i motori di ricerca, quindi sto pensando a come bloccarli. Questo potrebbe essere fatto tramite iptables? Sto usando nginx come mio server web.

15 traffic nginx web-crawlers baidu

Impedire ai bot dannosi di pubblicare spam

Ricordo che un sito è stato chiuso per uso improprio e mi chiedo se i robot ne facciano parte. Se il bot sta postando qualcosa sul mio sito in quali modi posso combatterlo? Stavo pensando di impostare alcuni cookie e di farli cambiare tramite JavaScript + data e ora (quindi …

15 web-crawlers spam-prevention spam-bots

In che modo Google trova un dominio senza link?

Di recente ho registrato un nuovo dominio, l'ho indirizzato al mio server esistente e ho impostato una pagina minima che diceva semplicemente "test" e nient'altro. Stasera ho appena scoperto che la pagina è già indicizzata su Google! Non ci sono collegamenti al sito (non ho nemmeno parlato a nessuno del …

13 search-engine-indexing domain-registration web-crawlers

Devo bloccare i bot dal mio sito e perché?

I miei registri sono pieni di visitatori bot, spesso dell'Europa orientale e della Cina. I robot sono identificati come Ahrefs, Seznam, LSSRocketCrawler, Yandex, Sogou e così via. Devo bloccare questi robot dal mio sito e perché? Quali hanno uno scopo legittimo nell'aumentare il traffico sul mio sito? Molti di loro …

12 seo web-crawlers user-agent

Perché baidu esegue la scansione del mio sito come un matto

Quando controllo il registro di Apache, vedo che Baidu ha eseguito la scansione del mio sito Web 10 volte al giorno nelle ultime 2 settimane. Non è che ci tenga molto, ma sono davvero curioso del perché lo stia facendo. È un sito Web a pagina singola davvero piccolo con …

12 seo web-crawlers baidu

Lo stato di Ajax crawlable?

Ho visto che Google aveva una buona proposta / standard per rendere scorrevoli le applicazioni Ajax, tramite #! (hash bang). http://googlewebmastercentral.blogspot.com/2009/10/proposal-for-making-ajax-crawlable.html Le mie domande sono: Attualmente stanno già utilizzando questa "proposta" nel mondo reale? Altri motori di ricerca - Bing in particolare, lo stanno utilizzando o stanno pianificando di utilizzarlo?

12 seo google ajax web-crawlers

I file robots.txt e sitemap.xml possono essere dinamici attraverso un reindirizzamento .htaccess?

Ho un sito multilingue e multidominio. Funziona attraverso un'installazione CMS unica (Drupal), quindi ho una singola directory root. Quindi, se ho un robots.txt statico, lì posso solo mostrare i file per un singolo dominio, per quanto ne so. Potrei mettere una linea in .htaccess Redirect 301 /robots.txt /robots.php (o istruzioni …

12 htaccess redirects sitemap web-crawlers

Google non esegue la scansione dei file CDN

Ho notato che Google Webmaster Tools sta segnalando molte risorse bloccate nel mio sito Web. In questo momento tutte le "risorse bloccate" sono .css, .js e immagini (.jpg, .png) che offro da Cloudfront CDN. Ho passato molto tempo a testare e cercare di capire perché Google non esegue la scansione …

11 google-search-console web-crawlers googlebot cdn amazon-cloudfront

Quali robot vale davvero la pena far entrare in un sito?

Avendo scritto un numero di bot e visto l'enorme quantità di bot casuali che accadono durante la scansione di un sito, mi chiedo come webmaster, quali robot vale davvero la pena far entrare in un sito? Il mio primo pensiero è che consentire i bot sul sito può potenzialmente portare …

11 seo web-crawlers robots.txt googlebot bingbot

Strumenti per i Webmaster di Google mi informa che i robot stanno bloccando l'accesso alla Sitemap

Questo è il mio robots.txt : User-agent: * Disallow: /wp-admin/ Disallow: /wp-includes/ Sitemap: http://www.example.org/sitemap.xml.gz Ma Strumenti per i Webmaster di Google mi dice che i robot stanno bloccando l'accesso alla Sitemap: Si è verificato un errore durante il tentativo di accedere alla tua Sitemap. Assicurati che la tua Sitemap segua …

11 google-search-console robots.txt web-crawlers

Il click bot di Adsense è il click bombing del mio sito

Ho un sito che in questo momento riceve circa 7.000 - 10.000 pagine visualizzate al giorno. A partire dall'01 / 07 / 07/12 ho notato che il CTR stava aumentando drammaticamente. Questi clic verrebbero accreditati e poi riaccreditati poco dopo. Quindi, erano ovviamente clic fraudolenti. Il giorno dopo ho avuto …

11 google-adsense advertising web-crawlers botattack

Qual è il modo migliore per escludere i bot dal conteggio delle visualizzazioni?

Il mio sito web conta le visualizzazioni dei visitatori su determinate pagine. Ho notato che Google e altri robot stanno "facendo clic" sul mio sito come un matto e alcune pagine ottengono conteggi di visualizzazioni non realistici (rispetto a quelli prodotti dagli umani). Sto chiedendo le migliori pratiche per escludere …

11 php mysql web-crawlers best-practices

Googlebot invia migliaia di richieste al nostro localizzatore di mappe e utilizza la quota API

Abbiamo una pagina di localizzazione di negozi sul sito dei nostri clienti. L'utente finale inserisce il proprio codice postale e un raggio di ricerca e visualizziamo i risultati su una mappa di Google. Di recente abbiamo iniziato a notare che il sito stava raggiungendo il limite di ricerca della mappa …

10 web-crawlers google-maps

Come funziona "Noindex:" in robots.txt?

Ho incontrato questo articolo nelle mie notizie SEO oggi. Sembra implicare che è possibile utilizzare le Noindex:direttive oltre alle Disallow:direttive standard in robots.txt . Disallow: /page-one.html Noindex: /page-two.html Sembra che impedirebbe ai motori di ricerca di eseguire la scansione della pagina uno e impedire loro di indicizzare la pagina due. …

10 web-crawlers robots.txt googlebot noindex

Consenti solo ai bot di Google e Bing di eseguire la scansione di un sito

Sto usando il seguente file robots.txt per un sito: L'obiettivo è consentire a googlebot e bingbot di accedere al sito tranne la pagina /bedven/bedrijf/*e impedire a tutti gli altri bot di eseguire la scansione del sito. User-agent: googlebot Disallow: /bedven/bedrijf/* Crawl-delay: 10 User-agent: google Disallow: /bedven/bedrijf/* Crawl-delay: 10 User-agent: bingbot …

10 web-crawlers robots.txt

Combina user-agent in robots.txt

Gli user-agent possono essere elencati insieme, seguiti dalle loro regole comuni come in un robots.txt ? User-agent: Googlebot User-agent: ia_archiver #Alexa User-agent: BingPreview #Microsoft User-agent: bingbot #Microsoft User-agent: MSNBot #Microsoft User-agent: Slurp #Yahoo User-agent: Ask Jeeves/Teoma #Ask Disallow: /adm30_buds/

10 web-crawlers robots.txt user-agent

Inoltre, accedi agli URL negli interpreti

Ho eseguito un piccolo crawler Web e ho dovuto decidere quale agente utente utilizzare per esso. Gli elenchi degli agenti cingolati e Wikipedia suggeriscono il seguente formato: examplebot/1.2 (+http://www.example.com/bot.html) Tuttavia, alcuni robot omettono il segno più davanti all'URL. E mi chiedo cosa significhi in primo luogo, ma non sono riuscito …

10 web-crawlers http user-agent

In che modo Google è riuscito a eseguire la scansione delle mie 403 pagine?

Avevo un paio di file privati in una directory nella mia cartella di scuola. Si potrebbe vedere che i file esistevano andando su myschool.edu/myusername/myfolder, ma tentando di accedere ai file stessi tramite myschool.edu/myusername/myfolder/myfile.html restituisce un errore 403. Eppure Google in qualche modo è riuscito a catturare i contenuti di quei …

10 web-crawlers security googlebot

Come abilitare (dis) correttamente il bot archive.org? Le cose sono cambiate, se è così quando?

Ho un sito Web che per lo più non voglio essere indicizzato dai motori di ricerca, ma voglio preservarlo per l'eternità su archive.org. Quindi il mio robots.txtinizia con questo: User-agent: * Disallow: / Oggi, secondo archive.org, devo aggiungere quanto segue nel mio robots.txtper consentire i loro robot: User-agent: ia_archiver Disallow: …

10 web-crawlers robots.txt internet-archive

Dovremmo abbandonare lo schema di scansione di AJAX?

Quindi ora Google ha deprecato lo schema di scansione di AJAX . Dicono di non preoccuparsi di implementarlo in nuovi siti Web, perché non è più necessario poiché Googlebot ora non ha problemi a guardare i contenuti dinamici. Dovremmo immediatamente fidarci di questa affermazione, o meglio aderire allo standard deprecato …

9 seo web-crawlers googlebot ajax

Domande taggate «web-crawlers»