Perché i risultati di ricerca di Google includono pagine non consentite in robots.txt?

18

Ho alcune pagine sul mio sito da cui voglio tenere lontani i motori di ricerca, quindi le ho vietate nel mio robots.txtfile in questo modo:

User-Agent: *
Disallow: /email

Tuttavia, recentemente ho notato che Google a volte restituisce ancora collegamenti a tali pagine nei loro risultati di ricerca. Perché succede e come posso fermarlo?

Sfondo:

Diversi anni fa, ho creato un semplice sito Web per un club in cui era coinvolto un mio parente. Volevano avere collegamenti e-mail sulle loro pagine, quindi, per cercare di evitare che quegli indirizzi e-mail finissero in troppi elenchi di spam, invece di utilizzare i mailto:collegamenti diretti, ho fatto in modo che quei collegamenti puntassero a un semplice script trap trap redirector / address in esecuzione sul mio sito. Questo script restituirebbe un reindirizzamento 301 mailto:all'URL effettivo o, se rilevasse un modello di accesso sospetto, una pagina contenente molti indirizzi e-mail falsi casuali e collegamenti a più di tali pagine. Per tenere i bot di ricerca legittimi lontani dalla trap, ho impostato la robots.txtregola mostrata sopra, non consentendo l'intero spazio dei collegamenti redirector legittimi e delle pagine trap.

Solo di recente, tuttavia, una delle persone del club ha cercato su Google il proprio nome ed è rimasta piuttosto sorpresa quando uno dei risultati nella prima pagina era un collegamento allo script del redirector, seguito da un titolo costituito dal loro indirizzo e-mail con il mio nome Naturalmente, mi hanno immediatamente inviato un'e-mail e volevano sapere come ottenere il loro indirizzo dall'indice di Google. Sono stato anche abbastanza sorpreso, dal momento che non avevo idea che Google avrebbe indicizzato tali URL, apparentemente in violazione della mia robots.txtregola.

Sono riuscito a inviare una richiesta di rimozione a Google, e sembra aver funzionato, ma mi piacerebbe sapere perché e come Google sta aggirando la mia in robots.txtquesto modo e come assicurarsi che nessuna delle pagine non consentite venga visualizzata nella loro risultati di ricerca.

Ps. In realtà ho scoperto una possibile spiegazione e soluzione, che posterò di seguito, mentre preparavo questa domanda, ma ho pensato di chiederlo comunque nel caso in cui qualcun altro potesse avere lo stesso problema. Sentiti libero di pubblicare le tue risposte. Sarei anche interessato a sapere se anche altri motori di ricerca lo fanno e se le stesse soluzioni funzionano anche per loro.

google-search robots.txt

— Ilmari Karonen
fonte

1

"e come Google sta aggirando il mio robots.txt" Immagino che tu lo sappia già (o come diavolo saresti stato in grado di creare un sito in primo luogo) ma nel caso in cui qualche sfortunato pazzo vaga di ... Il robots.txtfile è come un piccolo cartello "No Trespassing" accanto al vialetto di qualcuno. Non è magico e (a meno che un visitatore non lo stia cercando esplicitamente) può vagare sulla tua proprietà senza essere influenzato leggermente dalla sua esistenza. Ci sono equivalenti su Internet di proiettori e recinzioni di filo spinato, ma se quelli sono ciò che vuoi, robots.txtnon è così.

— Parthian Shot

25

Sembra che Google includa deliberatamente gli URL non consentiti nel robots.txtproprio indice se sono presenti collegamenti a tali URL da altre pagine sottoposte a scansione. Per citare le pagine di aiuto degli Strumenti per i Webmaster :

"Sebbene Google non esegua la scansione o l'indicizzazione del contenuto delle pagine bloccate da robots.txt, potremmo comunque indicizzare gli URL se li troviamo su altre pagine del Web. Di conseguenza, l'URL della pagina e, potenzialmente, altri Le informazioni pubblicamente disponibili come il testo di ancoraggio nei collegamenti al sito o il titolo del progetto Open Directory (www.dmoz.org), possono essere visualizzate nei risultati di ricerca di Google. "

Apparentemente, Google interpreta una Disallowdirettiva robots.txtcome un divieto di scansione della pagina, non di indicizzazione . Suppongo che sia tecnicamente un'interpretazione valida, anche se fa schifo delle regole che mi legano.

In questo articolo di intervista , Matt Cutts di Google fornisce un po 'più di background e fornisce una spiegazione ragionevole per il motivo per cui lo fanno:

"All'inizio, molti siti Web molto popolari non volevano affatto essere sottoposti a scansione. Ad esempio, eBay e il New York Times non consentivano a nessun motore di ricerca, o almeno a Google di non eseguire la scansione di alcuna pagina. Library of Congress aveva varie sezioni in cui si diceva che non è consentito eseguire la scansione con un motore di ricerca. Quindi, quando qualcuno è venuto su Google e hanno digitato eBay, non abbiamo eseguito la scansione di eBay e non siamo riusciti a restituire eBay, noi sembrava un po 'subottimale. Quindi, il compromesso che abbiamo deciso di escogitare è stato, non ti faremmo scansionare da robots.txt, ma potremmo restituire quel riferimento URL che abbiamo visto. "

La soluzione consigliata su entrambe le pagine è quella di aggiungere un noindexmeta tag alle pagine che non si desidera indicizzare. (L' X-Robots-Tagintestazione HTTP dovrebbe funzionare anche per le pagine non HTML. Non sono sicuro che funzioni sui reindirizzamenti.) Paradossalmente, ciò significa che devi consentire a Googlebot di eseguire la scansione di tali pagine (rimuovendole robots.txtcompletamente o aggiungendo un set di regole separato e più permissivo per Googlebot), poiché altrimenti non può vedere il meta tag in primo luogo.

Ho modificato il mio script trap di reindirizzamento / spider per inviare sia il meta tag che l' X-Robots-Tagintestazione con il valore noindex,nofollowe ho permesso a Googlebot di eseguire la scansione dell'URL dello script nel mio robots.txt. Vedremo se funziona quando Google indicizza nuovamente il mio sito.

— Ilmari Karonen
fonte

5

È vero che mentre ciò dovrebbe impedire a Google (e ai buoni robot) di eseguire la scansione di queste pagine e leggere i loro contenuti, possono comunque mostrare un collegamento solo URL nelle SERP se sono collegati, del modulo:

Collegamento URL solo nelle SERP di Google

Come puoi vedere, non esiste un titolo o una descrizione, è letteralmente solo l'URL. Naturalmente questo tipo di risultati viene solitamente omesso dalle SERP, a meno che non le si cerchi esplicitamente.

E come accennato nella tua risposta, se non vuoi che l'URL appaia affatto nelle SERP, allora devi consentire ai robot, ma includere un metatag noindex.

— MrWhite
fonte