Robots.txt vs Sitemap - Chi vince in un conflitto

8

Se blocco la directory / foo in robots.txt, ma la mia Sitemap XML contiene URL con / Foo, gli URL nella Sitemap verranno rilevati da Google e da altri motori di ricerca? In altre parole, la sitemap ha la meglio su robots.txt? Penso di sì, ma non ne sono sicuro.

robots.txt xml-sitemap

— nathan
fonte

12

Nessun motore di ricerca conforme al protocollo di esclusione dei robot può eseguire la scansione di qualsiasi URL non consentito in robots.txt, indipendentemente da dove altro possa essere elencato.

Tuttavia, Google non deve necessariamente eseguire la scansione dei tuoi URL per indicizzarli. Se ritengono di avere prove sufficienti che esiste effettivamente una pagina in quell'URL (e che un elenco di sitemap conta molto probabilmente come tale prova), possono semplicemente decidere di aggiungere l'URL al loro indice senza alcun contenuto. Per citare le pagine di aiuto di Strumenti per i Webmaster di Google :

"Sebbene Google non esegua la scansione o l'indicizzazione del contenuto delle pagine bloccate da robots.txt, potremmo comunque indicizzare gli URL se li troviamo su altre pagine del Web. Di conseguenza, l'URL della pagina e, potenzialmente, altri informazioni pubblicamente disponibili come il testo di ancoraggio nei collegamenti al sito o il titolo del progetto Open Directory (www.dmoz.org), possono essere visualizzati nei risultati di ricerca di Google. "

Tali pagine possono apparire come risultati di ricerca, ad esempio per le parole incluse nell'URL stesso o per le parole utilizzate nei collegamenti che puntano alla pagina.

Quindi, se sia la lista di una pagina in una mappa del sito e impedire che in robots.txt, è probabile che Google volontà indice l'URL di quella pagina - ma non il suo contenuto.

— Ilmari Karonen
fonte

Quindi la risposta sarebbe Sì anziché No, no? :) Perché raccoglie gli URL nonostante la directory sia bloccata in robots.txt e sembra che tu sia d'accordo.

— Henrik Erlandsson,

3

Robots.txt definisce quali robot conformi sono consentiti o meno da richiedere. Anche se un particolare link è presente in una sitemap, un bot non può richiederlo se il robots.txt non lo consente.

Ricorda che le sitemap non sono necessarie e anche se ne viene fornita una, i crawler possono ignorare gli URL e scansionare quelli che non sono presenti. Se riesci a vedere questo negli Strumenti per i Webmaster di Google, mostra che non tutti gli URL in una Sitemap vengono sottoposti a scansione e se alcuni URL sono robotizzati .

— Itai
fonte

3

La risposta di Itai è corretta, quindi nulla di molto importante da aggiungere a questo, ma in risposta alla tua domanda specifica ...

Una sitemap non può superare un robots.txt, una sitemap non fornisce istruzioni / direttive per i crawler su un sito Web. Non sono nemmeno comparabili. Se hai ordinato ai robot di non visitare / seguire, /footutti i robot che obbediscono alle direttive dei tuoi robot semplicemente non visiteranno quella directory indipendentemente dal percorso intrapreso per arrivarci (mappa del sito o altro).

— zigojacko
fonte

Ehm ... questo è ciò che Google dice nella loro documentazione su come gestiscono la scansione. [absoluteURL] punta a una Sitemap, un file Indice Sitemap o un URL equivalente. L'URL non deve trovarsi sullo stesso host del file robots.txt. Possono esistere più voci sitemap. In quanto record di membri non appartenenti al gruppo, questi non sono associati ad alcun agente utente specifico e possono essere seguiti da tutti i crawler, a condizione che non siano vietati .

— Zigojacko,

3

Quando Google è in grado di elaborare correttamente un file robots.txt, un URL menzionato in un file Sitemap non vincerà mai una direttiva non consentita valida nel file robots.txt. Googlebot non deve sottoporre a scansione un URL a cui non è consentito eseguire la scansione.

— John Mueller,

0

Nel webmaster di Google: mostra un errore nella tua Sitemap XML che "Hai inserito un link a cui è vietato eseguire la Scansione nel tuo file robots.txt. Google preferisce il file robots.txt piuttosto che la Sitemap.

— Asif Faridi
fonte