Da circa metà agosto 2014, diversi server Google hanno scaricato tutti i (molto) file binari di grandi dimensioni sul mio sito Web, circa una volta alla settimana. Tutti gli IP sono di proprietà di Google e hanno il seguente aspetto: google-proxy-66-249-88-199.google.com. Queste sono richieste GET e stanno influenzando notevolmente il traffico del mio server.
Prima di questo, non avevo visto alcun traffico da questi IP proxy di Google, quindi questo sembra essere qualcosa di relativamente nuovo. Vedo tutti i tipi di traffico provenienti da altri IP di Google, tutti solo googlebot e richieste HEAD.
Non sarei preoccupato per questo, tranne per il fatto che tutti questi file vengono scaricati da Google circa ogni settimana circa. La larghezza di banda utilizzata sta iniziando a diventare eccessiva.
Ho ipotizzato che poiché molti di questi file sono eseguibili di Windows, forse Google li sta scaricando per eseguire scansioni di malware. Anche se è vero, deve davvero succedere ogni settimana?
Esempio di traffico dagli IP proxy di Google a novembre finora:
google-proxy-64-233-172-95.google.com: 8.09 GB
google-proxy-66-102-6-104.google.com: 7.50 GB
google-proxy-66-249-83-245.google.com: 3.35 GB
google-proxy-66-249-84-131.google.com: 1.54 GB
google-proxy-66-249-83-131.google.com: 4.98 GB
google-proxy-66-249-83-239.google.com: 2.48 GB
google-proxy-66-249-88-203.google.com: 2.94 GB
google-proxy-66-249-88-201.google.com: 2.58 GB
google-proxy-66-249-88-199.google.com: 4.89 GB
Aggiornamento n. 1: ho dimenticato di dire che i file in questione si trovano già nel file robots.txt del sito. Per fare causa alla configurazione di robots.txt funziona correttamente, ho anche usato il tester robots.txt in Strumenti per i Webmaster di Google, che mostra che i file sono sicuramente bloccati per tutti i bot di Google, con un'eccezione: Adsbot-Google. Non sono sicuro di cosa si tratti. E ho cercato su Google alcuni file e NON vengono visualizzati nei risultati di ricerca.
Aggiornamento n. 2: Esempio: tra le 5:12 e le 5:18 PST del 17 novembre, circa una mezza dozzina di IP (tutti google-proxy) hanno ottenuto GET su tutti i file binari in questione, 27 in totale. Il 4 novembre tra le 14:09 e le 14:15 PST, quegli stessi IP hanno fatto sostanzialmente la stessa cosa.
Aggiornamento n. 3: a questo punto sembra chiaro che, sebbene siano IP di Google validi, fanno parte del servizio proxy di Google e non del sistema di scansione web di Google. Poiché si tratta di indirizzi proxy, non è possibile determinare da dove provengono effettivamente le richieste GET o se provengono da una o più posizioni. Basato sulla natura sporadica dei GET, non sembra che stia succedendo qualcosa di nefasto; è probabile che qualcuno decida di scaricare tutti i file binari durante l'utilizzo del servizio proxy di Google. Sfortunatamente, quel servizio sembra essere completamente privo di documenti, il che non aiuta. Dal punto di vista dell'amministratore del sito, i proxy sono piuttosto fastidiosi. Non voglio bloccarli, perché hanno usi legittimi. Ma possono anche essere usati in modo improprio.