Googlebot invia migliaia di richieste al nostro localizzatore di mappe e utilizza la quota API


10

Abbiamo una pagina di localizzazione di negozi sul sito dei nostri clienti. L'utente finale inserisce il proprio codice postale e un raggio di ricerca e visualizziamo i risultati su una mappa di Google.

Di recente abbiamo iniziato a notare che il sito stava raggiungendo il limite di ricerca della mappa gratuita (circa 25.000 per 24 ore) senza un notevole aumento del traffico complessivo. Ho attivato alcune registrazioni aggiuntive per provare a trovare il problema.

Si scopre che Googlebot sta spingendo attraverso migliaia di ricerche su questa mappa. Questo è un piccolo esempio:

2017-07-09 23: 56: 22.719 [7] INFO ShopLanding - [Discussione 41] Google Maps: il G23 cercato ha ricevuto OK da 66.249.66.221
09/07/2017 23: 56: 35.469 [7] INFO ShopLanding - [Discussione 10] Google Maps: cercato CA6 ricevuto OK da 66.249.66.221
09/07/2017 23: 57: 24.563 [7] INFO ShopLanding - [Discussione 48] Google Maps: cercato BN14 ricevuto OK da 66.249.66.223
09/07/2017 23: 58: 00.970 [7] INFO ShopLanding - [Discussione 42] Google Maps: cercato CB4 ricevuto OK da 66.249.66.221
09/07/2017 23: 58: 13.064 [7] INFO ShopLanding - [Discussione 54] Google Maps: cercato DY9 ricevuto OK da 66.249.66.221
09/07/2017 23: 59: 18.722 [7] INFO ShopLanding - [Discussione 59] Google Maps: TS3 cercato ha ricevuto OK da 66.249.66.223
09/07/2017 23: 59: 53.223 [7] INFO ShopLanding - [Discussione 49] Google Maps: cercato S45 ricevuto OK da 66.249.66.221

Esiste un modo per impedire a Google di rispondere a così tante richieste? Si tratta di una percentuale significativa dell'indennità gratuita. Le ricerche legittime sembrano essere inferiori a circa 200 al giorno.

MODIFICARE

Il sito è basato su ASP.NET C #. La ricerca nel negozio utilizza POST, l'URL non cambia al momento dell'invio. Posso inviare un campione di registri IIS domani mattina per confermare questo comportamento.


Gli elementi che Googlebot sta cercando hanno qualche significato? "G23" e "CA6" non significano nulla per me. Googlebot di solito non invia dati casuali ai moduli. Di solito esegue la scansione solo delle opzioni a discesa, dei dati precompilati o dei collegamenti alle query. Questi valori sul sito sono da qualche parte come un elenco? Inoltre, che aspetto hanno i tuoi URL per queste richieste?
Stephen Ostermiller

@StephenOstermiller sono codici postali parziali del Regno Unito, in particolare l'identificatore di distretto. Queste dovrebbero essere POSTrichieste per AJAX, controllerò comunque i log di IIS.
Burgi,

A parte: che "ricerca mappe gratuita" è questa?
MrWhite,

1
@SamWeaver l'IP si risolve come bot di Google e la corrispondente voce del registro IIS ha Googlebot UserAgent. Certamente entrambi possono essere falsificati.
Burgi,

1
Il localizzatore del negozio utilizza la stringa di query (richiesta GET)? Qual è la struttura approssimativa dell'URL della pagina del localizzatore del negozio, cambia (stringa di query) con la ricerca dell'utente? Se puoi spiegare più dettagliatamente il lato funzionale / tecnologico, allora puoi rispondere in modo più efficace.
TopQnA

Risposte:


11

Per interrompere la ricerca di googlebot tramite googlemaps inserisci un file chiamato robots.txtnella radice del tuo dominio. ad es. https://www.wikipedia.org/robots.txt

Esempio di robots.txt:

User-agent: Googlebot
Disallow: /search-store/

Dove / search-store / è la pagina che invia la richiesta a google maps.

Se capita che sia qualcosa di diverso da Googlebot, puoi provare a disabilitare tutto il crawling su questa pagina con:

User-agent: *
Disallow: /search-store/

Si noti che non smetterà di comportarsi in modo errato con script che ignorano robots.txt.


10
Nota che non vuoi che Google e altri motori di ricerca eseguano lo spidering di queste pagine, comunque!
Ari Davidow,

1
Non sono sicuro che il blocco dell'intero archivio di ricerca sia l'opzione giusta, potremmo aver bisogno di capire la stringa di query, ecc. Significato, lascia leggere a Google ma non inviare troppe richieste. Il blocco dell'intero archivio di ricerca dovrebbe essere l'ultima opzione.
TopQnA

La ricerca con limitazione della velocità potrebbe essere un'altra opzione, diciamo dopo 25 ricerche, è necessario raffreddarsi per un'ora tra ogni ricerca. Arresterebbe robot e persone malvagie, ma non utenti regolari.
sabato

Se la pagina serve solo per cercare la posizione di un negozio, dubito che sarebbe utile indicizzarla in primo luogo. Dipenderebbe dalla struttura del sito. Inoltre, robots.txt è più facile / veloce (quindi più economico) da implementare come soluzione rapida rispetto a impiegare alcune ore al limite di velocità. @TopQnA
satibel

Bene, la posizione del negozio è molto importante per l'utente e la maggior parte delle persone cerca un negozio con riferimento alla posizione in Google e se il localizzatore del negozio è in grado di generare una mappa con informazioni utili con URL univoco per ciascun negozio, sarebbe molto più utile per l'utente. Ed è per questo che il blocco dovrebbe essere l'ultima opzione.
TopQnA
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.