In che modo Google è riuscito a eseguire la scansione delle mie 403 pagine?


10

Avevo un paio di file privati ​​in una directory nella mia cartella di scuola. Si potrebbe vedere che i file esistevano andando su myschool.edu/myusername/myfolder, ma tentando di accedere ai file stessi tramite myschool.edu/myusername/myfolder/myfile.html restituisce un errore 403.

Eppure Google in qualche modo è riuscito a catturare i contenuti di quei file privati ​​e salvarli nella sua cache! Com'è possibile? [Da allora ho rimosso quei file, quindi sono solo curioso di sapere come Google è riuscito a farlo.]


2
Questo appartiene a Webmaster
RobertPitt il

Risposte:


5

Il motivo più probabile è che le pagine non restituiranno un'intestazione 403.

Puoi verificarlo utilizzando la barra degli strumenti per sviluppatori Web in Firefox o Chrome. Lo strumento si trova in "Informazioni" -> "Visualizza intestazioni di risposta".

Inoltre, il modo in cui creo le mie pagine di errore è:

  1. Creo una pagina di errore fittizia. Diciamo 403.php .
  2. Creo una pagina di errore reale. Ad esempio error403.php .
  3. Nella pagina dell'errore fittizio, ho inserito il seguente codice: <?php header("Location: /error403.php",TRUE,301); ?>
  4. Nel mio .htaccess ho inserito quanto segue:

    Options -Indexes

    ErrorDocument 403 /403.php

Questo aggiunge tutti i reindirizzamenti in modo corretto e mi assicura che sto ricevendo un po 'di succo dalle mie pagine di errore.

Questo può effettivamente essere esteso in un modo estremamente interessante se il tuo sito web ha un motore di ricerca che utilizza richieste GET.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.