Ho alcune pagine sul mio sito da cui voglio tenere lontani i motori di ricerca, quindi le ho vietate nel mio robots.txt
file in questo modo:
User-Agent: *
Disallow: /email
Tuttavia, recentemente ho notato che Google a volte restituisce ancora collegamenti a tali pagine nei loro risultati di ricerca. Perché succede e come posso fermarlo?
Sfondo:
Diversi anni fa, ho creato un semplice sito Web per un club in cui era coinvolto un mio parente. Volevano avere collegamenti e-mail sulle loro pagine, quindi, per cercare di evitare che quegli indirizzi e-mail finissero in troppi elenchi di spam, invece di utilizzare i mailto:
collegamenti diretti, ho fatto in modo che quei collegamenti puntassero a un semplice script trap trap redirector / address in esecuzione sul mio sito. Questo script restituirebbe un reindirizzamento 301 mailto:
all'URL effettivo o, se rilevasse un modello di accesso sospetto, una pagina contenente molti indirizzi e-mail falsi casuali e collegamenti a più di tali pagine. Per tenere i bot di ricerca legittimi lontani dalla trap, ho impostato la robots.txt
regola mostrata sopra, non consentendo l'intero spazio dei collegamenti redirector legittimi e delle pagine trap.
Solo di recente, tuttavia, una delle persone del club ha cercato su Google il proprio nome ed è rimasta piuttosto sorpresa quando uno dei risultati nella prima pagina era un collegamento allo script del redirector, seguito da un titolo costituito dal loro indirizzo e-mail con il mio nome Naturalmente, mi hanno immediatamente inviato un'e-mail e volevano sapere come ottenere il loro indirizzo dall'indice di Google. Sono stato anche abbastanza sorpreso, dal momento che non avevo idea che Google avrebbe indicizzato tali URL, apparentemente in violazione della mia robots.txt
regola.
Sono riuscito a inviare una richiesta di rimozione a Google, e sembra aver funzionato, ma mi piacerebbe sapere perché e come Google sta aggirando la mia in robots.txt
questo modo e come assicurarsi che nessuna delle pagine non consentite venga visualizzata nella loro risultati di ricerca.
Ps. In realtà ho scoperto una possibile spiegazione e soluzione, che posterò di seguito, mentre preparavo questa domanda, ma ho pensato di chiederlo comunque nel caso in cui qualcun altro potesse avere lo stesso problema. Sentiti libero di pubblicare le tue risposte. Sarei anche interessato a sapere se anche altri motori di ricerca lo fanno e se le stesse soluzioni funzionano anche per loro.
robots.txt
file è come un piccolo cartello "No Trespassing" accanto al vialetto di qualcuno. Non è magico e (a meno che un visitatore non lo stia cercando esplicitamente) può vagare sulla tua proprietà senza essere influenzato leggermente dalla sua esistenza. Ci sono equivalenti su Internet di proiettori e recinzioni di filo spinato, ma se quelli sono ciò che vuoi,robots.txt
non è così.