Blocco dinamico dell'uso eccessivo della larghezza di banda HTTP?


24

Siamo rimasti un po 'sorpresi di vederlo sui nostri grafici di cactus per il traffico web del 4 giugno:

Abbiamo eseguito Log Parser sui nostri registri IIS e si è scoperto che questa è stata una tempesta perfetta di bot Yahoo e Google che ci indicizza .. in quel periodo di 3 ore, abbiamo visto 287k hit da 3 diversi IP di Google, oltre 104k da Yahoo. Ahia?

Anche se non vogliamo bloccare Google o Yahoo, questo è già emerso. Abbiamo accesso a un Cisco PIX 515E e stiamo pensando di metterlo in primo piano in modo da poter gestire in modo dinamico i trasgressori della larghezza di banda senza toccare direttamente i nostri server Web.

Ma è la soluzione migliore? Mi chiedo se esiste qualche software o hardware che possa aiutarci a identificare e bloccare un uso eccessivo della larghezza di banda , idealmente in tempo reale? Forse un po 'di hardware o software open source che possiamo mettere davanti ai nostri server web?

Siamo principalmente un negozio di Windows ma abbiamo anche alcune competenze su Linux; siamo anche aperti all'acquisto di hardware se il PIX 515E non è sufficiente. Cosa raccomanderesti?

Risposte:


23

Se il tuo PIX esegue la versione 7.2 o successiva del sistema operativo, o può essere aggiornato ad esso, puoi implementare i criteri QOS a livello di firewall. In particolare, ciò consente di modellare il traffico e di limitare la larghezza di banda utilizzata dai robot. Cisco ha un buon gusto per questo qui .


L'unico problema che ho con questa risposta è che il poster non vuole BLOCCARE (o degradare) Google o Yahoo, ma piuttosto vuole che "strisciano bene".
KPWINC,

1
QOS non riguarda il blocco. Ecco perché Sam Cogan ha scritto "dovrebbe permetterti di limitare la larghezza di banda utilizzata dai robot".
Piotr Dobrogost,

9

Non sono sicuro di Yahoo, ma puoi configurare la frequenza con cui il bot di Google indicizza il tuo sito. Dai un'occhiata a Google Webmaster . Non sono sicuro che Yahoo abbia qualcosa di simile. In ogni caso ciò ridurrà il tuo traffico fino al 50%.

In alternativa, alcuni server Web possono limitare il traffico per connessione in modo da poterlo provare. Personalmente starei lontano dalle soluzioni hardware poiché molto probabilmente costerà di più.


Yahoo! ha Site Explorer.
Amok,

9

Per ridurre il carico di scansione: funziona solo con Microsoft e Yahoo. Per Google, dovrai specificare una velocità di scansione più lenta tramite i loro Strumenti per i Webmaster ( http://www.google.com/webmasters/ ).

Prestare MOLTO attenzione quando si implementa questo perché se si rallenta troppo la ricerca per indicizzazione, i robot non saranno in grado di accedere a tutto il tuo sito e potresti perdere pagine dall'indice.

Ecco alcuni esempi (questi vanno nel tuo robots.txtfile):

# Yahoo's Slurp Robot - Please wait 7 seconds in between visits

User-agent: slurp
Crawl-delay: 7

# MSN Robot - Please wait 5 seconds in between visits

User-agent: msnbot
Crawl-delay: 5

Leggermente fuori tema, ma puoi anche specificare un file indice Sitemap o Sitemap.

Se desideri fornire ai motori di ricerca un elenco completo dei tuoi migliori URL, puoi anche fornire una o più direttive di individuazione automatica della Sitemap. Si noti che l'agente utente non si applica a questa direttiva, quindi non è possibile utilizzarlo per specificare una Sitemap per alcuni ma non per tutti i motori di ricerca.

# Please read my sitemap and index everything!

Sitemap: http://yourdomain.com/sitemap.axd

4

Usiamo un firewall Watchguard (il nostro è un X1000 che è ormai finito). Hanno molte bellezze che ruotano attorno al blocco di domini o ips che vengono visti più volte o che usano una quantità ossessiva di larghezza di banda.

Ciò avrebbe bisogno di qualche modifica perché, ovviamente, non vorresti bloccare Jon Skeet su StackOverflow :)


3

Consiglierei Microsoft ISA Server 2006. Specificamente per questo requisito, per impostazione predefinita limiterà a 600 richieste / min HTTP per IP e puoi applicare un'eccezione per Jon Skeet (scusami, mi rendo conto che "scherzo" è già stato fatto! ).

Hai i vantaggi aggiuntivi del filtro a livello di applicazione, la possibilità di bilanciare il carico tra più server Web (anziché NLB su quei server), la terminazione VPN ecc. Sono disponibili numerose estensioni commerciali e puoi persino scrivere il tuo filtro ISAPI se ti senti coraggioso.

Ovviamente non è open-source ma ha vantaggi per un negozio di Windows e funziona su hardware di base.


Questo è l'approccio più flessibile insieme alla modifica di robots.txt
Jim B,

Grazie. Sono d'accordo che i cingolati debbano avere una direzione!
Robin M,

2

Usiamo i bilanciatori del carico di Foundry (in particolare SI850s) per gestire questo tipo di problema di modellatura, gestisce anche un sacco di altri "nasty" come le inondazioni SYN ecc. Potrebbe essere un po 'eccessivo per voi ragazzi però.


2

I prodotti Bluecoat (precedentemente Packeteer) PacketShaper possono limitare in modo dinamico un uso eccessivo del traffico che gestisce.


1

Puoi persino eseguire un rudimentale limite di velocità con qualsiasi normale router Cisco di qualsiasi decente capacità / vintage. Stai usando un router Cisco?

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.