Perché Google sta scaricando file binari dal mio sito Web e sta utilizzando la larghezza di banda?

Da circa metà agosto 2014, diversi server Google hanno scaricato tutti i (molto) file binari di grandi dimensioni sul mio sito Web, circa una volta alla settimana. Tutti gli IP sono di proprietà di Google e hanno il seguente aspetto: google-proxy-66-249-88-199.google.com. Queste sono richieste GET e stanno influenzando notevolmente il traffico del mio server.

Prima di questo, non avevo visto alcun traffico da questi IP proxy di Google, quindi questo sembra essere qualcosa di relativamente nuovo. Vedo tutti i tipi di traffico provenienti da altri IP di Google, tutti solo googlebot e richieste HEAD.

Non sarei preoccupato per questo, tranne per il fatto che tutti questi file vengono scaricati da Google circa ogni settimana circa. La larghezza di banda utilizzata sta iniziando a diventare eccessiva.

Ho ipotizzato che poiché molti di questi file sono eseguibili di Windows, forse Google li sta scaricando per eseguire scansioni di malware. Anche se è vero, deve davvero succedere ogni settimana?

Esempio di traffico dagli IP proxy di Google a novembre finora:

google-proxy-64-233-172-95.google.com: 8.09 GB
google-proxy-66-102-6-104.google.com: 7.50 GB
google-proxy-66-249-83-245.google.com: 3.35 GB
google-proxy-66-249-84-131.google.com: 1.54 GB
google-proxy-66-249-83-131.google.com: 4.98 GB
google-proxy-66-249-83-239.google.com: 2.48 GB
google-proxy-66-249-88-203.google.com: 2.94 GB
google-proxy-66-249-88-201.google.com: 2.58 GB
google-proxy-66-249-88-199.google.com: 4.89 GB

Aggiornamento n. 1: ho dimenticato di dire che i file in questione si trovano già nel file robots.txt del sito. Per fare causa alla configurazione di robots.txt funziona correttamente, ho anche usato il tester robots.txt in Strumenti per i Webmaster di Google, che mostra che i file sono sicuramente bloccati per tutti i bot di Google, con un'eccezione: Adsbot-Google. Non sono sicuro di cosa si tratti. E ho cercato su Google alcuni file e NON vengono visualizzati nei risultati di ricerca.

Aggiornamento n. 2: Esempio: tra le 5:12 e le 5:18 PST del 17 novembre, circa una mezza dozzina di IP (tutti google-proxy) hanno ottenuto GET su tutti i file binari in questione, 27 in totale. Il 4 novembre tra le 14:09 e le 14:15 PST, quegli stessi IP hanno fatto sostanzialmente la stessa cosa.

Aggiornamento n. 3: a questo punto sembra chiaro che, sebbene siano IP di Google validi, fanno parte del servizio proxy di Google e non del sistema di scansione web di Google. Poiché si tratta di indirizzi proxy, non è possibile determinare da dove provengono effettivamente le richieste GET o se provengono da una o più posizioni. Basato sulla natura sporadica dei GET, non sembra che stia succedendo qualcosa di nefasto; è probabile che qualcuno decida di scaricare tutti i file binari durante l'utilizzo del servizio proxy di Google. Sfortunatamente, quel servizio sembra essere completamente privo di documenti, il che non aiuta. Dal punto di vista dell'amministratore del sito, i proxy sono piuttosto fastidiosi. Non voglio bloccarli, perché hanno usi legittimi. Ma possono anche essere usati in modo improprio.

google proxy bandwidth

— boot13
fonte

Buona domanda. Ho votato a favore! Di sicuro vorrai bloccarli usando robots.txt. Perché Google sta scaricando eseguibili è oltre me. La tua teoria sembra buona, ma in qualche modo, a causa della frequenza, non ne sono sicuro. Sembra piuttosto strano. Questi sembrano essere indirizzi IP Googlebot validi, anche se non ho google-proxy-66-102-6-104.google.com nel mio elenco.

— closetnoc,

Ho dimenticato di dire che i file in questione si trovano già nel file robots.txt del sito. Vedi l'aggiornamento n. 1 sopra.

— boot13

Mi hai confuso. Mi aspetto un appaltatore da un momento all'altro, quindi dovrò pensarci. Google ha fatto cose divertenti con i loro nomi di dominio e allocazioni di indirizzi IP e si sono verificate alcune sovrapposizioni con vari servizi Google tra cui hosting e altri in cui i robot delle persone possono apparire nello spazio degli indirizzi IP di Google, tuttavia non li ho visti usare l'indirizzo IP di Googlebot spazio. Vorrei che Google assegnasse spazio libero per i vari processi di ricerca senza sovrapposizioni, in modo che i sistemi di sicurezza possano fidarsi adeguatamente di questi indirizzi IP.

— closetnoc,

Ho fatto qualche ricerca per questa domanda e ho trovato alcuni aspetti interessanti, come:

1. È un crawler falso? -> /programming/15840440/google-proxy-is-a-fake-crawler-for-example-google-proxy-66-249-81-131-google-c

Conclusione da parte dell'utente:

Questi "crawler" non sono crawler ma fanno parte dell'anteprima del sito web in diretta utilizzata nel motore di ricerca di Google.

Ho provato questo, per mostrare uno dei miei siti Web nell'anteprima e sì, eccolo, ho ricevuto un messaggio IP bloccato.

Se desideri che gli utenti siano in grado di visualizzare un'anteprima del tuo sito Web, devi accettare questi "crawler".

Come altri hanno detto: "il dominio principale di quell'URL è google.com e non può essere facilmente falsificato".

Conclusione: puoi fidarti di questi bot o crawler e viene utilizzato per mostrare un'anteprima nella ricerca di Google.

Sappiamo che l'anteprima dal vivo non scarica i tuoi file, quindi passiamo alla domanda 2.

2. Fa parte dei servizi di Google? -> Questo proxy di Google è un crawler falso: google-proxy-66-249-81-131.google.com?

Conclusione:

Penso che alcune persone stiano usando i servizi di Google (come Google translate, Google mobile, ecc.) Per accedere a siti Web (bloccati) (nelle scuole, ecc.) Ma anche per attacchi DOS e attività simili.

La mia ipotesi su questo è la stessa di quanto sopra. Qualcuno sta provando a utilizzare un servizio Google per accedere ai tuoi file, come traduttore.

Se, come dici tu, i file sono già bloccati da robots.txt, questa può essere solo una richiesta manuale.

EDIT: per affrontare ampiamente il commento OP:

I crawler possono ignorare il file robots.txt? Sì. Ecco un elenco che non credo che Google faccia, il che significa che possono essere altri robot che utilizzano proxy di Google.

Può essere un cattivo bot? Sì, e per questo consiglio:

.htaccess banning:

 RewriteCond %{REMOTE_HOST} ^209.133.111..* [OR]
 RewriteCond %{HTTP_USER_AGENT} Spider [OR]
 RewriteCond %{HTTP_USER_AGENT} Slurp
 RewriteRule ^.*$ X.html [L]

Questo codice può vietare gli IP o gli User agent.

Oppure usa una trappola per ragno, qui descritta

Continuo a ritenere che si tratti di una richiesta manuale.

— nunorbatista
fonte

Ho visto anche quelle risposte, ma non sembravano affrontare il mio problema specifico. Potresti avere ragione sul fatto che Google Proxy venga usato in qualche modo in modo improprio, nel qual caso molto probabilmente lo bloccherò completamente, il che è un po 'zoppo. La mia comprensione di robots.txt è che il software del crawler può scegliere di ignorarlo. I robot amichevoli dovrebbero onorarlo, e la maggior parte lo fanno, ma i proxy sono (immagino) diversi.

— boot13

@ boot13 Attenzione però. Questi sono indirizzi IP Googlebot validi. Quindi, se lo blocchi, bloccalo solo per questi file. Supponendo che tu usi Apache, dovresti essere in grado di farlo con .htaccess. Ciò potrebbe causare altri problemi, quindi assicurati di prestare attenzione agli Strumenti per i Webmaster di Google per i messaggi.

— closetnoc,

@ boot13 Ho aggiornato la mia risposta. Puoi verificare se gli accessi vengono effettuati nello stesso giorno / ora o sono casuali?

— nunorbatista,

@nunorbatista: sembrano casuali. Ho aggiornato la mia domanda con alcune volte.

— boot13

@nunorbatista: vedi sopra l'aggiornamento n. 3. Non è Googlebot o qualsiasi altro crawler, è il servizio proxy di Google. Non è correlato all'anteprima del sito live di Google. Sembra che una o più persone abbiano appena scaricato i file binari tramite Google Proxy, forse per aggirare un blocco locale o una restrizione. È improbabile che il suggerimento di Trappola ragno sia di aiuto poiché il traffico non è apparentemente un bot. Vorrei bloccare l'IP di Google Proxy dall'accesso alla cartella contenente i file binari; Proverò a usare il codice htaccess, ma ovviamente il downloader potrebbe sempre passare a un altro proxy, quindi potrebbe essere inutile.

— boot13