Ho un sito che, per ragioni normative, potrebbe non essere indicizzato o cercato automaticamente. Ciò significa che dobbiamo tenere lontani tutti i robot e impedire loro di spiderare il sito.
Ovviamente abbiamo avuto un file robots.txt che non consente tutto dall'inizio. Tuttavia, osservare il file robots.txt è qualcosa che solo i robot ben educati fanno. Di recente abbiamo riscontrato alcuni problemi con robot meno educati. Ho configurato Apache per vietare alcuni user-agent ma è abbastanza facile aggirarlo.
Quindi, la domanda è: esiste un modo per configurare Apache (forse installando un modulo?) Per rilevare comportamenti simili a robot e rispondere? Altre idee?
Al momento tutto ciò che posso fare è vietare gli indirizzi IP basati sull'ispezione manuale dei registri e questa non è semplicemente una strategia a lungo termine praticabile.