In che modo Googlebot trova gli URL visibili solo agli utenti autenticati?


12

Ecco uno dei miei clienti, che esegue alcune azioni dopo aver effettuato l'accesso al suo account. Il token univoco è semplicemente un ID utente crittografato + data / ora.

94.254.xxx.xxx - - [02 / Jul / 2011: 22: 25: 46 +0200] "GET / some-action / unique-token-123abc HTTP / 1.1" 200 410 "-" "Mozilla / 5.0 (compatibile; MSIE 9.0; Windows NT 6.1; Trident / 5.0) "

Ora, Googlebot in qualche modo ha scoperto questo link unico e ha provato ad accedere allo stesso URL esatto una settimana dopo.

66.249.71.179 - - [10 / Jul / 2011: 09: 56: 01 +0200] "GET / some-action / unique-token-123abc HTTP / 1.1" 302 - "-" "Mozilla / 5.0 (compatibile; Googlebot / 2.1; + http: //www.google.com/bot.html) "

(il codice di stato è 302 perché il token era scaduto)


Vorrei sottolineare che si tratta di un URL univoco che era visibile esattamente una volta, solo per 2 secondi, prima che l'utente facesse clic su di esso e continuasse a visitare quella pagina. Non è stato inviato in una e-mail o pubblicato ovunque pubblico.

Cosa sta succedendo qui, come è possibile che Google abbia trovato questo URL unico?

Risposte:


6

È difficile dirlo con certezza ma qui ci sono scenari probabili:

  • L'utente ha una barra degli strumenti del browser o un'estensione installata che riporta gli URL che visitano su Google.

  • Qualcuno collegato a quell'URL e Google lo hanno trovato eseguendo la scansione della pagina con quel link su di esso.


Se stai parlando di Google Toolbar restituisce gli URL a Google solo nel caso in cui abiliti la funzione "PageRank", ma non abbiamo mai usato quei dati per scoprire nuovi URL. Se su qualche altra barra degli strumenti che è stata rilasciata da noi, fammi sapere per favore.
methode,

5

Mi sono appena reso conto che l'utente deve aver trovato un link in uscita su questa pagina autenticata, quindi ho fatto trapelare l'URL privato come Refererquando faceva clic su un altro sito Web. Questa è l'unica spiegazione possibile e avrebbe dovuto essere ovvia fin dall'inizio.

Una volta trapelato, l'URL privato potrebbe essere stato esposto a Google in diversi modi, ad esempio il sito di destinazione potrebbe aver pubblicato pubblicamente i propri registri di accesso. Nota: nessuno dei link in uscita utilizzava Google Analytics, quindi ciò non indica che Googlebot stia utilizzando URL di riferimento di Analytics.

Ripresa della lezione: non inserire mai dati sensibili negli URL a meno che non si utilizzi https, nel qual caso il browser sarebbe rimasto Referervuoto.


1
Hai ragione: inserire dati sensibili negli URL può essere pericoloso. Ogni volta che puoi, dovresti passare ID utente univoci tra le pagine usando richieste POST (che non inviano variabili come parte dell'URL, come richieste GET) o con variabili cookie / di sessione.
Nick,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.