Oltre a obbedire a robots.txt, obbedire nofollow
e noindex
in <meta>
elementi e collegamenti:
Ci sono molti che credono che robots.txt non sia il modo corretto per bloccare l'indicizzazione e, a causa di quel punto di vista, hanno chiesto a molti proprietari di siti di fare affidamento sul <meta name="robots" content="noindex">
tag per dire ai web crawler di non indicizzare una pagina.
Se si sta tentando di creare un grafico delle connessioni tra i siti Web (qualcosa di simile a PageRank),
(e <meta name="robots" content="nofollow">
) si suppone che il sito di origine non si fidi abbastanza del sito di destinazione per dargli un'approvazione adeguata. Pertanto, mentre è possibile indicizzare il sito di destinazione, non è necessario memorizzare la relazione tra i due siti.
La SEO è più un'arte che una vera scienza, ed è praticata da molte persone che sanno cosa stanno facendo e molte persone che leggono i riassunti delle persone che sanno cosa stanno facendo. Incontrerai problemi in cui verrai bloccato dai siti per aver fatto cose che altri siti hanno trovato perfettamente accettabili a causa di una regola che qualcuno ha sentito o letto in un post sul blog su SEOmoz che può o non può essere interpretato correttamente.
A causa di quell'elemento umano, a meno che tu non sia Google, Microsoft o Yahoo !, si presume che sia dannoso se non dimostrato diversamente. È necessario prestare particolare attenzione per comportarsi come se non si trattasse di una minaccia per il proprietario di un sito Web e agire in base a come si desidera che un crawler potenzialmente dannoso (ma si spera benigno) agisca:
- smetti di eseguire la scansione di un sito quando rilevi di essere bloccato: 403 / 401s su pagine che conosci come lavoro, limitazione, timeout, ecc.
- evitare scansioni esaustive in periodi di tempo relativamente brevi: eseguire la scansione di una parte del sito e tornare più tardi (qualche giorno dopo) per eseguire la scansione di un'altra parte. Non effettuare richieste parallele.
- evitare la scansione di aree potenzialmente sensibili:
/admin/
ad esempio URL con al loro interno.
Anche allora, sarà una battaglia in salita a meno che non ricorra a tecniche black hat come lo spoofing UA o mascherare di proposito i tuoi modelli di scansione: molti proprietari di siti, per le stesse ragioni sopra, bloccheranno a vista un crawler sconosciuto invece di prendere la possibilità che qualcuno non stia cercando di "hackerare il proprio sito". Preparati a molti fallimenti.
Una cosa che potresti fare per combattere l'immagine negativa che un crawler sconosciuto avrà è di chiarire nella tua stringa agente utente chi sei:
Aarobot Crawler 0.9 created by John Doe. See http://example.com/aarobot.html for more information.
Dove http://example.com/aarobot.html
spiega cosa stai cercando di realizzare e perché non sei una minaccia. Quella pagina dovrebbe avere alcune cose:
- Informazioni su come contattarti direttamente
- Informazioni su cosa raccoglie il crawler e perché lo sta raccogliendo
- Informazioni su come annullare la sottoscrizione e cancellare i dati raccolti
Quest'ultima è la chiave: una buona rinuncia è come una Garanzia di rimborso ™ e segna una quantità irragionevole di buona volontà. Dovrebbe essere umano: un semplice passo (o un indirizzo e-mail o, idealmente, un modulo) e completo (non dovrebbero esserci "trucchi": opt-out significa che smetti di strisciare senza eccezioni).