Sto usando il seguente file robots.txt per un sito: L'obiettivo è consentire a googlebot e bingbot di accedere al sito tranne la pagina /bedven/bedrijf/*
e impedire a tutti gli altri bot di eseguire la scansione del sito.
User-agent: googlebot
Disallow: /bedven/bedrijf/*
Crawl-delay: 10
User-agent: google
Disallow: /bedven/bedrijf/*
Crawl-delay: 10
User-agent: bingbot
Disallow: /bedven/bedrijf/*
Crawl-delay: 10
User-agent: bing
Disallow: /bedven/bedrijf/*
Crawl-delay: 10
User-agent: *
Disallow: /
L'ultima regola User-agent: * Disallow: /
impedisce a tutti i bot di eseguire la scansione di tutte le pagine del sito?
robots.txt
comunque
robots.txt
, o almeno la Disallow: /
regola. Se il tuo sito Web personale viene messo a terra perché un programmatore di bot non ha mai considerato che il server potrebbe essere un Raspberry Pi dall'estremità sbagliata di una connessione a 256 kbit, un'esclusione generale come questa è utile.