In che modo i siti rilevano i robot dietro proxy o reti aziendali


12

In che modo i siti di grandi dimensioni (ad esempio Wikipedia) gestiscono i robot che si trovano dietro un altro mascheratore IP? Ad esempio, nella mia università, tutti cercano Wikipedia, dandogli un carico significativo. Ma, per quanto ne so, Wikipedia può conoscere solo l'IP del router universitario, quindi se imposto un bot "scatenato" (con solo un piccolo ritardo tra le richieste), Wikipedia può vietare il mio bot senza vietare l'intera organizzazione? un sito può effettivamente vietare un IP dietro una rete organizzativa?




Risposte:


21

No, vieteranno l'IP pubblico e anche tutti coloro che sono NAT a quell'IP saranno banditi.

Anche se almeno allo stack se pensiamo di vietare un college o qualcosa del genere, contatteremo il loro contatto con gli abusi per convincerli a rintracciare l'autore del reato e fermare il problema.


2
Quello che ha detto Zypher. Parlando come qualcuno che era solito rintracciare i reclami inviati a abuse@unnamedacademicinstitution.edu, di solito eravamo piuttosto desiderosi di trovare la persona responsabile in modo da sbloccare l'IP pubblico. (Gli studenti universitari adorano condividere la musica peer to peer. A RIAA piace contattare abuse@whatever.edu al riguardo.)
Katherine Villyard,

... a meno che non ci sia qualcosa di identificabile in modo univoco nel tuo bot, come passare un token di accesso o un ID browser univoco.
simpleuser,

1
Questo non risponde alla domanda reale sul titolo di come questi siti rilevano i robot. In effetti, sembra che se rallenti sufficientemente il tuo bot (il che non sarebbe molto), sarebbe indistinguibile dall'uso valido da parte di un intero gruppo di studenti universitari.
Wildcard il

1
Per estendere il commento di @ KatherineVillyard. Supervisionare formalmente la rete di un'istituzione se nessuno ci raggiungesse prima del blocco e la risorsa da cui eravamo bloccati veniva regolarmente utilizzata, avremmo contattato loro per correggere il problema. Di solito erano disposti a sbloccarci se avessimo risolto questo dalla nostra fine. Ciò significava perseguire la fonte dell'abuso. Essendo Wikipedia, anche se non raggiungono il tuo istituto, probabilmente il tuo istituto lo esaminerà una volta che si renderanno conto di essere stati inseriti nella lista nera. Quel divieto apparentemente innocuo può rapidamente trasformarsi in espulsione.
Bacon Brad,

1
@Wildcard FWIW la maggior parte dei posti non ti dirà come rilevano i bot semplicemente perché questo farà semplicemente sì che gli autori di bot che stanno catturando cambino le cose. Detto questo, ci sono molti altri segnali oltre alla velocità delle richieste per rilevare i robot. Ma alla maggior parte dei posti non importa molto se stai giocando bene, senza fare cose di merda o sforzare le risorse. Non vale la pena inseguire ogni piccolo bot là fuori.
Zypher,

1

Un sito non può vietare direttamente un IP protetto da NAT. Potrebbe agire su IP passati attraverso proxy HTTP non anonimi: quando un proxy di questo tipo inoltra una richiesta, in genere aggiunge tale indirizzo a un'intestazione X-Forwarded-For, quindi se l'accesso dalla rete privata deve effettivamente passare tramite tale proxy l'IP interno potrebbe essere esposto; tuttavia la maggior parte dei siti (inclusa Wikipedia) non si fiderebbe comunque delle informazioni in quell'intestazione perché è facile falsificare IP impliciti o eludere i divieti.

Esistono altre tecniche che tentano di identificare in modo univoco gli utenti indipendentemente dall'indirizzo IP. Puoi interrogare un browser web per molte informazioni su di esso e sul sistema su cui è in esecuzione, come l'agente utente, la risoluzione dello schermo, l'elenco dei plug-in, ecc. - vedi https://github.com/carlo/jquery- browser di impronte digitaliper un esempio di questo in pratica. È possibile utilizzare tali impronte digitali per controllare l'accesso, anche se a seconda della progettazione del sito si potrebbe essere in grado di interagire con esso senza impegnarsi con il processo di impronte digitali e anche se non è possibile un bot potrebbe fornire dati spuri e randomizzati al fine di evitare di avere un impronte digitali coerenti se si è a conoscenza di questo tipo di protezione. Questo metodo di controllo comporta anche il rischio di falsi positivi soprattutto quando si tratta di dispositivi mobili in cui probabilmente ci saranno molti clienti che eseguono identici stock client su identici stock hardware (la maggior parte delle persone su un modello specifico di iPhone che esegue una versione specifica di iOS , ad esempio, probabilmente otterrebbe la stessa impronta digitale).


1
Non è affatto improbabile; molte università, e almeno un intero paese, collegano le connessioni web proxy e aggiungono X-Forwarded-For.
Michael Hampton

Interessante. Sarei personalmente sorpreso se un'azienda dovesse configurare i propri proxy Web per farlo in quanto espone alcune informazioni (certamente banali) sulla tua rete interna, ma immagino che dipenda dall'organizzazione.
Carcer,

@Carcer, non deve essere il vero indirizzo IP interno, ma qualcosa di coerente per ogni utente del proxy.
Ian Ringrose,

0

Generalmente l'indirizzo IP non è informazioni sufficienti per un divieto corretto. Quindi le reti avanzate funzionano in alto nello stack di rete.

Un attacco Denial of Service (DoS) (di cui si è preoccupati per la creazione) viene generalmente gestito limitando la velocità della configurazione iniziale della connessione TCP. Ciò significa che gli utenti legittimi che sono disposti ad aspettare passeranno, mentre quelli che stanno solo cercando di consumare risorse del server vengono rallentati al punto da diventare innocui. È qui che DoS si è poi evoluto in un attacco DDoS (Distributed DoS).

Una volta che hai una connessione al server puoi effettuare tutte le richieste che vuoi, l'amministrazione del web server può configurare quante richieste gestire.

Il web server probabilmente può gestire comunque più capacità del gateway di rete locale, questo è probabilmente il fattore limitante nel tuo caso d'uso. Scommetto che gli amministratori della tua rete universitaria verrebbero a bussare alla tua porta prima di Wikipedia.

È importante essere un buon cittadino di Internet, quindi aggiungerei un codice di limitazione della velocità a un bot.

Va anche sottolineato che Wikipedia offre dump di dati in modo che la navigazione a strascico sul sito non sia realmente necessaria.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.