Questo è un evento in rapida evoluzione che non ha ancora una risposta.
Si prega di non pubblicare i risultati o le ipotesi come risposte; riservare il campo di risposta per quando si ha effettivamente una risposta.
Se hai qualcosa di nuovo da aggiungere, modificalo direttamente nella domanda.
Dall'inizio dell'anno, ricevo molto traffico con l'agente utente:
Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.9.0.10) Gecko/2009042316 Firefox/3.0.10 (.NET CLR 3.5.30729).
I miei registri di accesso mostrano il 40% - 60% da quell'agente utente. È strano perché l'agente utente afferma un browser Firefox 3.0.10 (qualcuno sta usando quel browser nel 2012? Sicuramente non il 40% -60% dei visitatori su un normale sito Web).
Inoltre, i registri mostrano che questo programma utente ha richiesto solo il documento HTML e nessuna risorsa di riferimento come immagini, file css, js.
Ho controllato gli IP di quelle richieste (con quella UA). Viene da tutto il mondo. Ho riconosciuto che a volte quegli IP hanno un user agent mobile.
Quindi il mio sospetto è un'app mobile che sta facendo molte "richieste di spider". Sarebbe bene conoscere la causa principale del traffico da quell'agente utente.
Qualcuno può identificare la causa principale?
Nelle ultime due settimane, abbiamo riconosciuto che il traffico proveniente da quella UA è calato e che è aumentato l'altro traffico. Sembra che quel bot / crawler stia ora usando un UA più comune e quindi sia più difficile da bloccare. Ho visto qualcun altro che lo diceva in una risposta a questa domanda ma è stato rimosso quando serverfault ha deciso di riorganizzare questa domanda.
VECCHIE risposte come riferimento
Aggiornamento da Dee
Gestisco il mio sito Web piuttosto trafficato e vedo esattamente la stessa cosa nei nostri registri di Apache nell'ultimo mese o giù di lì (non ho ancora avuto la possibilità di controllare più indietro). Il 40% di tutte le richieste è la percentuale che vedo, il che è pazzo, ovviamente.
E ho anche notato che le richieste sembrano sempre affermare che il browser richiedente non supporta la compressione gzip, risultando in tutte le richieste di pagine Web inviate non compresse e il nostro utilizzo della larghezza di banda si estende attraverso il tetto!
Ma finora non sono stato in grado di determinare cosa sta realmente succedendo - tutto ciò che sospetto finora è che potrebbe essere una sorta di server proxy o tale per un dispositivo mobile che sta inviando una stringa di useragent falsa.
MODIFICATO PER AGGIUNGERE: Ho appena fatto qualche ricerca in più e sembra che potrebbe essere un software antivirus: http://www.webmasterworld.com/search_engine_spiders/4428772.htm
Aggiornamento da jamur21
Sì, abbiamo notato traffico simile su più siti.
Stiamo ancora cercando la causa principale, ma alcuni dei nostri risultati includono:
Se è un ragno, sta facendo un lavoro piuttosto scadente. Sembra martellare solo uno o due URL per dominio per un po '(forse un paio d'ore), fino a quando non passa a un altro URL. Il contenuto è sempre relativamente "attuale", tuttavia, il che dà credito a Google News come fattore, come si evince dal link pubblicato da Dee nella sua risposta (tutti i nostri siti sono siti di notizie).
Mentre gli IP sono distribuiti geograficamente, per noi la maggior parte di essi sembra trovarsi vicino al sito di origine (la maggior parte dei nostri siti sono notiziari locali, quindi non ricevono molto traffico nazionale). Quasi nessuna delle richieste proviene da fuori degli Stati Uniti. Ancora una volta, questo dà credito agli URL che vengono sottratti da Google News (suppongo che le persone che hanno localizzato Google News tramite il codice postale vedranno i nostri contenuti).
La maggior parte delle volte, le richieste possono essere cancellate come rumore di fondo (anche se particolarmente rumoroso), ma un paio di volte al giorno aumenteremo e questo UA da solo rappresenterà ~ 100 Mbps di traffico per circa 15-30 minuti.
Sfortunatamente, mentre Google News sembra un possibile vettore per scoprire questi URL, tutto ciò che abbiamo visto è circostanziale e non abbiamo ancora nessuna pistola fumante per sapere esattamente come o perché questi URL vengono martellati.
Aggiornamento da Bannow Bay
Abbiamo un grande sito di notizie: le nostre storie vengono raccolte da Google News più volte alla settimana. Riceviamo traffico da questa fonte da fine novembre - e sta crescendo di settimana in settimana - forse 30 milioni di imps a febbraio.
L'aspetto sulla prima pagina di Google News negli Stati Uniti è un fattore scatenante per questo traffico: circa il 75% pretende di provenire da IP statunitensi. Ma qualunque cosa sia, sta facendo grandi sforzi per oscurarsi. E questo non è amichevole.
Non abbiamo nemmeno trovato la pistola fumante, ma un importante fornitore di sicurezza ha gentilmente accettato di indagare ulteriormente per nostro conto.
Aggiornamento da Artem Russakovskii
È successa la stessa cosa a un sito di notizie (AndroidPolice.com) per la prima volta. Circa 10 minuti di queste richieste casuali hanno aumentato il QPS di oltre il 5000% in media (5000qps, che è il limite di NodeBalancer di Linode). La CPU ha iniziato a funzionare al minimo poiché le richieste stavano esaurendo I / O e la rete: era un vero DDOS.
Mi piacerebbe davvero arrivare a fondo di questo, ma al momento sembra del tutto sconcertante.
Aggiornamento da Mark
Basta aggiungere un +1. Stiamo riscontrando lo stesso comportamento sul nostro sito. Non un sacco di nuove informazioni da aggiungere qui, ma ecco la forma generale del nostro traffico:
- Il traffico è altamente distribuito. Il traffico proviene da oltre 60.000 IP univoci.
- La stragrande maggioranza del traffico colpisce un singolo URL, in genere un URL recente elencato su Google News (sebbene Google News non sembri sempre essere il vettore)
- Tutto questo traffico proviene dallo stesso user agent Firefox / 3.0.10 come indicato in questo thread, anche se abbiamo visto alcuni agenti mobili strani qua e là.
- Tutto il traffico proveniente da questo agente non contiene dati referrer.
- Lo scoppio si verifica una o due volte a settimana per 30-60 minuti e poi scompare.
Aggiornamento da Don Irlanda
L'ultimo post è stato il 13 aprile ma il traffico non è certo terminato. La parte più strana di questo potrebbe essere il fatto che qualsiasi autore di malware degno del suo sale potrebbe sicuramente (sicuramente) utilizzare una stringa agente utente da un browser moderno, rendendo inutile la difesa agente agente utente. Questo fatto fa sembrare che la fonte sia un aggregatore di notizie "innocuo" o qualche altra applicazione. Finora, tuttavia, non sono stato in grado di giungere a nessuna conclusione reale e spero che chiunque disponga di informazioni le pubblicherà qui.
Stiamo osservando lo stesso schema, con una storia raccolta da Google News seguita da picchi molto elevati di traffico che richiede la storia (ma non file accessori come le immagini). Il traffico di risposta in uscita provoca picchi che possono saturare la rete (o sì, fino a quando non abbiamo iniziato a rispondere con solo un errore 503). Questi attacchi (cos'altro possiamo chiamarli?) Durano in media circa 30 minuti, ma le storie molto popolari possono avere un traffico elevato per un'ora o più (sto parlando del traffico di Firefox 3.0.10, ovviamente anche il traffico normale rimane alto per un po).
In un periodo di un'ora (per un singolo server in un gruppo con bilanciamento del carico) abbiamo visto 200.000 richieste di cui 97.000 richieste firefox 3.0.10, quasi il 50% di tutte le richieste. E se si considera che normalmente una pagina genera 10 o più richieste per il file principale e i file degli accessori, i 97.000 telai risultano molto più grandi. Noto che dei 97.000 c'erano 51.000 indirizzi IP univoci. E sto parlando di un'ora (in realtà era più vicino a 45 minuti). Qualunque cosa stia causando questo è abbastanza diffusa.
Aggiornamento da utente119708
Abbiamo lo stesso problema su un enorme sito Web di notizie high-tech francese.
Ogni volta che una notizia viene pubblicata e visualizzabile su Google News, il traffico aumenta notevolmente sulle notizie con circa 50 a 100 visite da IP e agente utente "Mozilla / 5.0 (Windows; U; Windows NT 5.1; en-US; rv: 1.9.0.10 ) Gecko / 2009042316 Firefox / 3.0.10 (.NET CLR 3.5.30729) ".
Tutti gli indirizzi IP sembrano essere situati in Francia o nei paesi francesi e non hanno riferimenti. Sembra essere un bot, ma perché un singolo indirizzo remoto deve tornare 50 o 100 volte sulla stessa notizia in pochi minuti? Potrebbero essere computer infetti? Perché il fenomeno appare quando le notizie sono visibili su Google News? Google è responsabile di questo strano traffico?
Se qualcuno in questo argomento ha trovato la spiegazione, penso che aiuterebbe molti siti Web di medie o grandi dimensioni a controllare il loro traffico!
EDIT: http://2bits.com/botnet/botnet-hammering-web-site-causing-outages.html Se si tratta effettivamente di computer infetti, è molto preoccupante dato il numero di indirizzi coinvolti. Implementeremo questo script per Apache per bloccare tutto il traffico:
# Referer is empty
RewriteCond %{HTTP_REFERER} ^$
# User agent is bogus old browser
RewriteCond %{HTTP_USER_AGENT} "Gecko/2009042316 Firefox/3.0.10"
# Forbid the request
RewriteRule ^(.*)$ - [F,L]
Aggiornamento da Ernesto
Sito di notizie generali spagnolo medio, ha notato un traffico elevato in alcune notizie irrilevanti da alcuni giorni.
Chiunque sia, carica l'HTML completo, poiché lo notiamo a causa del conteggio della "visualizzazione di pagina" che incrementiamo tramite gli aggiornamenti del database una volta caricata la pagina.
Notiamo solo uno o due URL targetizzati ogni giorno.
Molte richieste (7000-12000) sullo stesso URL in pochi secondi, distribuite nell'arco della giornata da IP diversi. I prossimi giorni altri URL targetizzati.
Nessun referente.
Gli articoli scelti come target sono apparsi su Google News, ma non possiamo garantire che siano correlati.
Google Analytics non lo riconosce come traffico legittimo. Abbiamo articoli con oltre 8000 hit e GA riporta solo circa 25 (suppongo che javascript non sia stato interpretato).
Aggiornamento da Old Pro
Aggiunta di alcuni punti dati per te.
Bots vs. Browser non considera questo UA come un bot (ancora).
Sul sito più trafficato per il quale ho registri, l'utilizzo di maggio 2012 fino ad oggi mostra questo UA come meno dell'1% del traffico. Una parte significativa delle richieste UA appare legittima (ad esempio, caricando tutte le risorse previste). Questo è sostanzialmente lo stesso di febbraio 2012.
La prima pagina di questo sito viene raramente aggiornata e tutto il contenuto dinamico è bloccato da robots.txt.
Questo è probabilmente da Genieo. Hanno aggiornato la loro applicazione per utilizzare un nuovo user agent: Mozilla / 5.0 + (compatibile; + Genieo / 1.0 + http://www.genieo.com/webfilter.html ). Colpisce con lo stesso modello dell'agente utente originale ma ora sembrano identificarsi. Se guardi l'URL nel loro agente utente, riconoscono persino che potrebbero essere stati o potrebbero ancora generare troppo traffico verso determinati siti web. - fiocco
Aggiornamento da Mike Fagan
Abbiamo combattuto ciò che presumevamo fossero attacchi DDOS da settimane ormai. Abbiamo appena iniziato a vedere Genieo come l'agente utente per questi attacchi. In precedenza abbiamo visto "Mozilla / 5.0 (Windows; U; Windows NT 5.1; en-US; rv: 1.9.0.10) Gecko / 2009042316 Firefox / 3.0.10 (.NET CLR 3.5.30729)" e un sacco di richieste da " Mozilla / 5.0 (Windows NT 6.1; rv: 11.0) Gecko / 20100101 Firefox / 11.0 ". 10k + IP diversi, fino a 1 milione di richieste al giorno a sole 3 o 4 pagine in cui lo stesso IP richiedeva più di 100 pagine e non estraeva risorse o annunci aggiuntivi. La mia scoperta è che nessuno di questi IP è effettivamente andato a qualsiasi altra pagina del nostro sito.
Ho contattato Genieo e questa è la loro risposta:
"Grazie per averci contattato.
La vecchia versione di Genieo potrebbe aver causato i carichi di traffico descritti. Ci scusiamo per gli eventuali disagi causati. Abbiamo rilasciato e aggiornato ieri che affrontano questo problema, il caricamento dei dati dalla nostra applicazione dovrebbe svanire nelle prossime 24 ore. Credevamo di offrire un buon servizio al tuo sito presentandolo ai nuovi utenti. Non abbiamo valutato correttamente che, man mano che la nostra base di installazione sta crescendo, potrebbe causare sovraccarico in alcuni siti.
Genieo è un giornale personale o un lettore RSS intelligente. È un lettore RSS lato client con filtro di personalizzazione semantica intelligente. L'applicazione Genieo segue i dati RSS dei siti preferiti dell'utente "legge" gli articoli eseguendo analisi semantiche e li filtra in base alle aree di interesse degli utenti. Se l'articolo corrisponde agli interessi dell'utente, l'applicazione visualizza il titolo e lo snippet dell'articolo nella home page dell'utente. Facendo clic sul titolo si accede al sito dell'articolo - il tuo sito. L'agente Genieo è autonomo (per motivi di privacy); funziona sul computer degli utenti finali, ecco perché vedi l'agente che accede al tuo sito da molti IP diversi.
La maggior parte dei dati di Genieo proviene dai normali feed RSS dell'utente, ma Genieo aggiunge anche alcuni contenuti di nuovi siti di notizie che non erano stati precedentemente registrati dagli utenti (per fortuna e diversità). Gli algoritmi di Genieo cercano articoli "caldi", hit più importanti di Twitter, YouTube più visti e momenti salienti delle notizie di Google e controllano se corrispondono all'interesse dell'utente
Non sapevamo che questo stava causando problemi di caricamento per alcuni siti. Una volta che questo è stato portato alla nostra attenzione, aggiorniamo gli utenti attuali con una nuova versione che impedisce picchi di carico.
I migliori saluti,
-Dotan