Un programma per computer che accede alle pagine Web per vari scopi (per raschiare contenuti, fornire ai motori di ricerca informazioni sul tuo sito, ecc.)
Ho visto che Google aveva una buona proposta / standard per rendere scorrevoli le applicazioni Ajax, tramite #! (hash bang). http://googlewebmastercentral.blogspot.com/2009/10/proposal-for-making-ajax-crawlable.html Le mie domande sono: Attualmente stanno già utilizzando questa "proposta" nel mondo reale? Altri motori di ricerca - Bing in particolare, lo stanno utilizzando o stanno pianificando di utilizzarlo?
Ho un sito multilingue e multidominio. Funziona attraverso un'installazione CMS unica (Drupal), quindi ho una singola directory root. Quindi, se ho un robots.txt statico, lì posso solo mostrare i file per un singolo dominio, per quanto ne so. Potrei mettere una linea in .htaccess Redirect 301 /robots.txt /robots.php (o istruzioni …
Ho notato che Google Webmaster Tools sta segnalando molte risorse bloccate nel mio sito Web. In questo momento tutte le "risorse bloccate" sono .css, .js e immagini (.jpg, .png) che offro da Cloudfront CDN. Ho passato molto tempo a testare e cercare di capire perché Google non esegue la scansione …
Avendo scritto un numero di bot e visto l'enorme quantità di bot casuali che accadono durante la scansione di un sito, mi chiedo come webmaster, quali robot vale davvero la pena far entrare in un sito? Il mio primo pensiero è che consentire i bot sul sito può potenzialmente portare …
Questo è il mio robots.txt : User-agent: * Disallow: /wp-admin/ Disallow: /wp-includes/ Sitemap: http://www.example.org/sitemap.xml.gz Ma Strumenti per i Webmaster di Google mi dice che i robot stanno bloccando l'accesso alla Sitemap: Si è verificato un errore durante il tentativo di accedere alla tua Sitemap. Assicurati che la tua Sitemap segua …
Ho un sito che in questo momento riceve circa 7.000 - 10.000 pagine visualizzate al giorno. A partire dall'01 / 07 / 07/12 ho notato che il CTR stava aumentando drammaticamente. Questi clic verrebbero accreditati e poi riaccreditati poco dopo. Quindi, erano ovviamente clic fraudolenti. Il giorno dopo ho avuto …
Il mio sito web conta le visualizzazioni dei visitatori su determinate pagine. Ho notato che Google e altri robot stanno "facendo clic" sul mio sito come un matto e alcune pagine ottengono conteggi di visualizzazioni non realistici (rispetto a quelli prodotti dagli umani). Sto chiedendo le migliori pratiche per escludere …
Abbiamo una pagina di localizzazione di negozi sul sito dei nostri clienti. L'utente finale inserisce il proprio codice postale e un raggio di ricerca e visualizziamo i risultati su una mappa di Google. Di recente abbiamo iniziato a notare che il sito stava raggiungendo il limite di ricerca della mappa …
Ho incontrato questo articolo nelle mie notizie SEO oggi. Sembra implicare che è possibile utilizzare le Noindex:direttive oltre alle Disallow:direttive standard in robots.txt . Disallow: /page-one.html Noindex: /page-two.html Sembra che impedirebbe ai motori di ricerca di eseguire la scansione della pagina uno e impedire loro di indicizzare la pagina due. …
Sto usando il seguente file robots.txt per un sito: L'obiettivo è consentire a googlebot e bingbot di accedere al sito tranne la pagina /bedven/bedrijf/*e impedire a tutti gli altri bot di eseguire la scansione del sito. User-agent: googlebot Disallow: /bedven/bedrijf/* Crawl-delay: 10 User-agent: google Disallow: /bedven/bedrijf/* Crawl-delay: 10 User-agent: bingbot …
Gli user-agent possono essere elencati insieme, seguiti dalle loro regole comuni come in un robots.txt ? User-agent: Googlebot User-agent: ia_archiver #Alexa User-agent: BingPreview #Microsoft User-agent: bingbot #Microsoft User-agent: MSNBot #Microsoft User-agent: Slurp #Yahoo User-agent: Ask Jeeves/Teoma #Ask Disallow: /adm30_buds/
Ho eseguito un piccolo crawler Web e ho dovuto decidere quale agente utente utilizzare per esso. Gli elenchi degli agenti cingolati e Wikipedia suggeriscono il seguente formato: examplebot/1.2 (+http://www.example.com/bot.html) Tuttavia, alcuni robot omettono il segno più davanti all'URL. E mi chiedo cosa significhi in primo luogo, ma non sono riuscito …
Avevo un paio di file privati in una directory nella mia cartella di scuola. Si potrebbe vedere che i file esistevano andando su myschool.edu/myusername/myfolder, ma tentando di accedere ai file stessi tramite myschool.edu/myusername/myfolder/myfile.html restituisce un errore 403. Eppure Google in qualche modo è riuscito a catturare i contenuti di quei …
Ho un sito Web che per lo più non voglio essere indicizzato dai motori di ricerca, ma voglio preservarlo per l'eternità su archive.org. Quindi il mio robots.txtinizia con questo: User-agent: * Disallow: / Oggi, secondo archive.org, devo aggiungere quanto segue nel mio robots.txtper consentire i loro robot: User-agent: ia_archiver Disallow: …
Quindi ora Google ha deprecato lo schema di scansione di AJAX . Dicono di non preoccuparsi di implementarlo in nuovi siti Web, perché non è più necessario poiché Googlebot ora non ha problemi a guardare i contenuti dinamici. Dovremmo immediatamente fidarci di questa affermazione, o meglio aderire allo standard deprecato …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.