Quali robot e ragni dovrei bloccare in robots.txt?


14

In modo da:

  1. Aumenta la sicurezza del mio sito Web
  2. Ridurre i requisiti di larghezza di banda
  3. Impedisci la raccolta dell'indirizzo email

Risposte:


17

Nessun bot che sta raccogliendo email o testando le vulnerabilità del tuo sito rispetterà il tuo robots.txt. In realtà questi robot dannosi guardano il file robots.txt per mappare meglio il tuo sito. Se qualsiasi punto hai un Disallow:questo verrà utilizzato per attaccare meglio il tuo sito. Un hacker che sta guardando manualmente il tuo sito dovrebbe dedicare più tempo all'esame di tutti i file / directory che stai tentando di non consentire.


3
Punto interessante Mi chiedo se abbia senso aggiungere una pagina falsa all'elenco Non consentire il cui unico scopo è catturare tali robot nell'atto in modo che possano essere automaticamente bloccati.
Steven Sudit,

5
@Steven Sudit non è una cattiva idea. Questo sarebbe chiamato un vaso di miele.
Arriva il

Sì, è esattamente giusto, anche se stavo pensando di più al trucco standard dei compilatori di directory (rubriche telefoniche, ecc.) Di aggiungere un piccolo numero di voci false in modo da rilevare il furto all'ingrosso.
Steven Sudit,

Se usi anche quell'honeypot come tarpit, ciò farà arrabbiare anche gli indicizzatori illegittimi. Questo in realtà è abbastanza comune da fare agli spammer: lasciare un indirizzo di posta elettronica indicizzabile honeypot che porta a un server di posta elettronica tarpit.
Mark Henderson

@Farseeker Non vedo alcun problema nel punire coloro che infrangono le regole. Anche se ingannare gli spammer con dati errati è una svolta interessante.
Arriva il

4

robots.txt non aumenterà la sicurezza del tuo sito Web né impedirà la raccolta di indirizzi e-mail. robots.txt è una guida per i motori di ricerca per saltare sezioni del tuo sito web. Questi non saranno indicizzati e dovrebbero essere usati per tutte le sezioni che non vuoi mostrare nei motori di ricerca pubblici.

Tuttavia, ciò non impedirà in alcun modo a nessun altro robot di scaricare l'intero sito per aumentare la sicurezza o impedire la raccolta di e-mail. Per aumentare la sicurezza è necessario aggiungere l'autenticazione e consentire agli utenti autenticati solo oltre le sezioni protette. Per impedire la raccolta di indirizzi e-mail, non inserire e-mail in testo semplice (o testo facilmente decifrabile) su un sito Web.


1

robots.txt non ti aiuterà con la sicurezza. Qualsiasi bot che vuole fare qualcosa di losco lo ignorerà comunque.


0

Il file robots.txt serve solo come richiesta a bot e spider di lasciare solo alcuni contenuti; in realtà non può impedirne l'accesso. I robot "buoni" lo rispetteranno, ma quelli "cattivi" (probabilmente quelli che vuoi bloccare) lo ignoreranno e procederanno comunque.


-1

Invece di robots.txt, forse devi usare i codici CAPTCHA.


I codici CAPTCHA non hanno nulla a che fare con i crawler web (che è ciò che indirizzi robots.txt).
user48838

È stato un downvote errato. Il punto è che un crawler può ignorare robots.txt, ma i codici CAPTCHA lo rallenteranno, se non addirittura lo bloccheranno completamente. Grazie per esserti sbagliato.
Steven Sudit,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.