Quali robot vale davvero la pena far entrare in un sito?


11

Avendo scritto un numero di bot e visto l'enorme quantità di bot casuali che accadono durante la scansione di un sito, mi chiedo come webmaster, quali robot vale davvero la pena far entrare in un sito?

Il mio primo pensiero è che consentire i bot sul sito può potenzialmente portare traffico reale ad esso. C'è qualche motivo per consentire ai robot che non sono noti di inviare traffico reale su un sito e come si individuano questi "buoni" robot?


1
+1: buona domanda; tuttavia è difficile rispondere alla tua domanda perché ci sono così tanti robot.
Zistoloen,

@Zistoloen: Sì, sono consapevole che è una domanda difficile; in effetti, la ragione per cui l'ho chiesto è perché un motore di ricerca non importante che conosco che ha indicizzato miliardi di pagine si lamentava del fatto che non erano in grado di accedere a grandi quantità del Web perché i siti stavano tentando di bloccare motori di ricerca non principali.
errori


@blunders Grazie per aver dedicato del tempo. Lo avrei modificato da solo se avessi potuto analizzare la domanda :)
DisgruntledGoat

@DisgruntledGoat: nessun problema, grazie per le modifiche!
errori

Risposte:


11

Nel regno dei normali robot, tutto dipende da ciò che apprezzi e solo tu puoi decidere. Naturalmente c'è Google, Bing / MSN / Yahoo !, Baidu e Yandex. Questi sono i principali motori di ricerca. Ci sono anche i vari siti SEO e backlink. Giusto o sbagliato, consento a un paio di quelli più grandi di accedere al mio sito, ma in genere sono siti inutili. Bloudo archive.org non solo in robots.txt, ma per nome di dominio e indirizzo IP. Questo perché ignorano alla grande robots.txt! Questo è qualcosa per cui devi avere un'idea. Non farti ingannare dai nomi degli agenti. Spesso sono forgiati da persone cattive. Oggi giorno ricevo migliaia di richieste di pagine da fonti che dichiarano di essere Baidu, ma non lo sono. Conosci questi ragni con nomi di dominio e blocchi di indirizzi IP e impara a gestirli a quel livello. I buoni obbediscono a robots.txt.

Ma devo avvertirti, ci sono un sacco di robot invisibili, robot canaglia, raschiatori e così via che vorrai cercare frequentemente le tue analisi del registro e bloccarle. Questo 5uck5! Ma deve essere fatto. La più grande minaccia da loro in questi giorni sono collegamenti di bassa qualità al tuo sito. Il mio codice di sicurezza anti-bot aggiornato che ho implementato quest'anno ha automaticamente eliminato 7700 collegamenti di bassa qualità. Certo, il mio codice ha ancora bisogno di lavoro, ma ottieni il punto. I robot cattivi rubano ancora il potenziale del sito.

Non passerà molto tempo prima che te ne accorga.


1

Ho avuto problemi con i robot Baidu che rallentavano il mio server mentre il motore di ricerca non stava inviando quasi traffico. Questi robot non rispettano il file robots.txt, quindi per bloccare i robot Baidu basta incollare quanto segue nel file htccess.

# User-agent: Baiduspider
# Baiduspider+(+http://www.baidu.com/search/spider_jp.html)
# Baiduspider+(+http://www.baidu.com/search/spider.htm)

# IP range
# 180.76

RewriteCond %{REMOTE_ADDR} ^180\.76\. [OR]
RewriteCond %{HTTP_USER_AGENT} ^Baiduspider [NC]
RewriteRule .* - [F,L]

Ho anche avuto problemi con gli spider Bing / Microsoft che strisciavano troppo velocemente, diversamente da Baidu rispettano così il file robots.txt;

User-agent: bingbot
Crawl-delay: 1

User-agent: msnbot
Crawl-delay: 1
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.