Un programma per computer che accede alle pagine Web per vari scopi (per raschiare contenuti, fornire ai motori di ricerca informazioni sul tuo sito, ecc.)
I registri di un sito Web che gestisco mostrano una richiesta di un file inesistente da Bingbot. I dettagli della richiesta sono Percorso: /trafficbasedsspsitemap.xml Useragent: "Mozilla / 5.0 (compatibile; bingbot / 2.0; + http://www.bing.com/bingbot.htm )" Indirizzo IP: 65.55.213.244 (la ricerca inversa si risolve in msnbot-65-55-213-244.search.msn.com ) Quale motivo sta cercando …
Su un server web ora devo ammettere che ho notato che il file robots.txt è vuoto. Mi chiedevo se ci fosse una differenza tra un file robots.txt vuoto e nessun file. I crawler si comportano diversamente in questi due casi? Quindi, è sicuro eliminare un robots.txt vuoto?
Come webmaster responsabile di un minuscolo sito che ha un forum, ricevo regolarmente lamentele da parte degli utenti che sia il motore di ricerca interno che le ricerche esterne (come quando usano Google) sono totalmente inquinate dalle firme dei miei utenti (stanno usando a lungo firme e questo fa parte …
Abbiamo avuto alcuni seri problemi con il ragno (incredibilmente) mal scritto di Yahoo in passato , e di conseguenza li abbiamo bloccati. Marco Arment di Tumblr ha anche condiviso le sue frustrazioni con noi l'31 / 31/2009, che è stato un fattore nel nostro blocco. [Il ragno di Yahoo] ci …
Questa domanda è stata migrata da StackTranslate.it perché è possibile rispondere a Scambio stack Webmaster. Migrato 9 anni fa . Lo spider di Google sa come eseguire il rendering di JavaScript o solo HTML?
Chiuso. Questa domanda è fuori tema . Al momento non accetta risposte. Vuoi migliorare questa domanda? Aggiorna la domanda in modo che sia in argomento per lo scambio di stack dei webmaster. Chiuso 6 anni fa . Ho un sito legacy piuttosto grande con letteralmente migliaia di PDF che a …
Molto è stato fatto della frequenza di scansione del ragno Baidu. È vero: "Baiduspider striscia come un matto." Ho sperimentato questo fenomeno in siti con cui lavoro. In almeno un caso, ho scoperto che Baiduspider esegue la scansione alla stessa frequenza di Googlebot, nonostante Baidu fornisca circa l'1% del traffico …
C'è il bot Ask, che imposta questa intestazione: Mozilla/2.0 (compatible; Ask Jeeves/Teoma) Considerando questo, ho le seguenti domande: Se sto scrivendo un web crawler chiamato Pippo, quale user agent dovrei usare? Qual è la differenza se inserisco Mozilla/2.0o Mozilla/5.0? Qualsiasi altro suggerimento su come devo formattare il mio user agent …
Ogni volta che creo un sito Web reattivo di solito creo 2 menu: 1 nascosto e utilizzato per dispositivi mobili e l'altro visualizzato come menu principale, quindi nascosto per mostrare il menu mobile. Ogni volta che si tratta di SEO e spider che navigano nel sito web mi viene offeso …
Ho una sottodirectory che vorrei nascondere ai crawler web dei motori di ricerca. Un modo per farlo è utilizzare un robots.txtnella directory principale del server (il modo standard). Tuttavia, chiunque conosca l'URL del sito Web e abbia alcune conoscenze di base sul Web può accedere ai contenuti di robots.txt e …
La maggior parte delle mie visite proviene da ragni baidu. Non credo che aiuti affatto i motori di ricerca, quindi sto pensando a come bloccarli. Questo potrebbe essere fatto tramite iptables? Sto usando nginx come mio server web.
Ricordo che un sito è stato chiuso per uso improprio e mi chiedo se i robot ne facciano parte. Se il bot sta postando qualcosa sul mio sito in quali modi posso combatterlo? Stavo pensando di impostare alcuni cookie e di farli cambiare tramite JavaScript + data e ora (quindi …
Di recente ho registrato un nuovo dominio, l'ho indirizzato al mio server esistente e ho impostato una pagina minima che diceva semplicemente "test" e nient'altro. Stasera ho appena scoperto che la pagina è già indicizzata su Google! Non ci sono collegamenti al sito (non ho nemmeno parlato a nessuno del …
I miei registri sono pieni di visitatori bot, spesso dell'Europa orientale e della Cina. I robot sono identificati come Ahrefs, Seznam, LSSRocketCrawler, Yandex, Sogou e così via. Devo bloccare questi robot dal mio sito e perché? Quali hanno uno scopo legittimo nell'aumentare il traffico sul mio sito? Molti di loro …
Quando controllo il registro di Apache, vedo che Baidu ha eseguito la scansione del mio sito Web 10 volte al giorno nelle ultime 2 settimane. Non è che ci tenga molto, ma sono davvero curioso del perché lo stia facendo. È un sito Web a pagina singola davvero piccolo con …
Ho visto che Google aveva una buona proposta / standard per rendere scorrevoli le applicazioni Ajax, tramite #! (hash bang). http://googlewebmastercentral.blogspot.com/2009/10/proposal-for-making-ajax-crawlable.html Le mie domande sono: Attualmente stanno già utilizzando questa "proposta" nel mondo reale? Altri motori di ricerca - Bing in particolare, lo stanno utilizzando o stanno pianificando di utilizzarlo?
Ho un sito multilingue e multidominio. Funziona attraverso un'installazione CMS unica (Drupal), quindi ho una singola directory root. Quindi, se ho un robots.txt statico, lì posso solo mostrare i file per un singolo dominio, per quanto ne so. Potrei mettere una linea in .htaccess Redirect 301 /robots.txt /robots.php (o istruzioni …
Ho notato che Google Webmaster Tools sta segnalando molte risorse bloccate nel mio sito Web. In questo momento tutte le "risorse bloccate" sono .css, .js e immagini (.jpg, .png) che offro da Cloudfront CDN. Ho passato molto tempo a testare e cercare di capire perché Google non esegue la scansione …
Avendo scritto un numero di bot e visto l'enorme quantità di bot casuali che accadono durante la scansione di un sito, mi chiedo come webmaster, quali robot vale davvero la pena far entrare in un sito? Il mio primo pensiero è che consentire i bot sul sito può potenzialmente portare …
Questo è il mio robots.txt : User-agent: * Disallow: /wp-admin/ Disallow: /wp-includes/ Sitemap: http://www.example.org/sitemap.xml.gz Ma Strumenti per i Webmaster di Google mi dice che i robot stanno bloccando l'accesso alla Sitemap: Si è verificato un errore durante il tentativo di accedere alla tua Sitemap. Assicurati che la tua Sitemap segua …
Ho un sito che in questo momento riceve circa 7.000 - 10.000 pagine visualizzate al giorno. A partire dall'01 / 07 / 07/12 ho notato che il CTR stava aumentando drammaticamente. Questi clic verrebbero accreditati e poi riaccreditati poco dopo. Quindi, erano ovviamente clic fraudolenti. Il giorno dopo ho avuto …
Il mio sito web conta le visualizzazioni dei visitatori su determinate pagine. Ho notato che Google e altri robot stanno "facendo clic" sul mio sito come un matto e alcune pagine ottengono conteggi di visualizzazioni non realistici (rispetto a quelli prodotti dagli umani). Sto chiedendo le migliori pratiche per escludere …
Abbiamo una pagina di localizzazione di negozi sul sito dei nostri clienti. L'utente finale inserisce il proprio codice postale e un raggio di ricerca e visualizziamo i risultati su una mappa di Google. Di recente abbiamo iniziato a notare che il sito stava raggiungendo il limite di ricerca della mappa …
Ho incontrato questo articolo nelle mie notizie SEO oggi. Sembra implicare che è possibile utilizzare le Noindex:direttive oltre alle Disallow:direttive standard in robots.txt . Disallow: /page-one.html Noindex: /page-two.html Sembra che impedirebbe ai motori di ricerca di eseguire la scansione della pagina uno e impedire loro di indicizzare la pagina due. …
Sto usando il seguente file robots.txt per un sito: L'obiettivo è consentire a googlebot e bingbot di accedere al sito tranne la pagina /bedven/bedrijf/*e impedire a tutti gli altri bot di eseguire la scansione del sito. User-agent: googlebot Disallow: /bedven/bedrijf/* Crawl-delay: 10 User-agent: google Disallow: /bedven/bedrijf/* Crawl-delay: 10 User-agent: bingbot …
Gli user-agent possono essere elencati insieme, seguiti dalle loro regole comuni come in un robots.txt ? User-agent: Googlebot User-agent: ia_archiver #Alexa User-agent: BingPreview #Microsoft User-agent: bingbot #Microsoft User-agent: MSNBot #Microsoft User-agent: Slurp #Yahoo User-agent: Ask Jeeves/Teoma #Ask Disallow: /adm30_buds/
Ho eseguito un piccolo crawler Web e ho dovuto decidere quale agente utente utilizzare per esso. Gli elenchi degli agenti cingolati e Wikipedia suggeriscono il seguente formato: examplebot/1.2 (+http://www.example.com/bot.html) Tuttavia, alcuni robot omettono il segno più davanti all'URL. E mi chiedo cosa significhi in primo luogo, ma non sono riuscito …
Avevo un paio di file privati in una directory nella mia cartella di scuola. Si potrebbe vedere che i file esistevano andando su myschool.edu/myusername/myfolder, ma tentando di accedere ai file stessi tramite myschool.edu/myusername/myfolder/myfile.html restituisce un errore 403. Eppure Google in qualche modo è riuscito a catturare i contenuti di quei …
Ho un sito Web che per lo più non voglio essere indicizzato dai motori di ricerca, ma voglio preservarlo per l'eternità su archive.org. Quindi il mio robots.txtinizia con questo: User-agent: * Disallow: / Oggi, secondo archive.org, devo aggiungere quanto segue nel mio robots.txtper consentire i loro robot: User-agent: ia_archiver Disallow: …
Quindi ora Google ha deprecato lo schema di scansione di AJAX . Dicono di non preoccuparsi di implementarlo in nuovi siti Web, perché non è più necessario poiché Googlebot ora non ha problemi a guardare i contenuti dinamici. Dovremmo immediatamente fidarci di questa affermazione, o meglio aderire allo standard deprecato …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.