Risposte:
Nessun motore di ricerca conforme al protocollo di esclusione dei robot può eseguire la scansione di qualsiasi URL non consentito in robots.txt, indipendentemente da dove altro possa essere elencato.
Tuttavia, Google non deve necessariamente eseguire la scansione dei tuoi URL per indicizzarli. Se ritengono di avere prove sufficienti che esiste effettivamente una pagina in quell'URL (e che un elenco di sitemap conta molto probabilmente come tale prova), possono semplicemente decidere di aggiungere l'URL al loro indice senza alcun contenuto. Per citare le pagine di aiuto di Strumenti per i Webmaster di Google :
"Sebbene Google non esegua la scansione o l'indicizzazione del contenuto delle pagine bloccate da robots.txt, potremmo comunque indicizzare gli URL se li troviamo su altre pagine del Web. Di conseguenza, l'URL della pagina e, potenzialmente, altri informazioni pubblicamente disponibili come il testo di ancoraggio nei collegamenti al sito o il titolo del progetto Open Directory (www.dmoz.org), possono essere visualizzati nei risultati di ricerca di Google. "
Tali pagine possono apparire come risultati di ricerca, ad esempio per le parole incluse nell'URL stesso o per le parole utilizzate nei collegamenti che puntano alla pagina.
Quindi, se sia la lista di una pagina in una mappa del sito e impedire che in robots.txt, è probabile che Google volontà indice l'URL di quella pagina - ma non il suo contenuto.
Robots.txt definisce quali robot conformi sono consentiti o meno da richiedere. Anche se un particolare link è presente in una sitemap, un bot non può richiederlo se il robots.txt non lo consente.
Ricorda che le sitemap non sono necessarie e anche se ne viene fornita una, i crawler possono ignorare gli URL e scansionare quelli che non sono presenti. Se riesci a vedere questo negli Strumenti per i Webmaster di Google, mostra che non tutti gli URL in una Sitemap vengono sottoposti a scansione e se alcuni URL sono robotizzati .
La risposta di Itai è corretta, quindi nulla di molto importante da aggiungere a questo, ma in risposta alla tua domanda specifica ...
Una sitemap non può superare un robots.txt, una sitemap non fornisce istruzioni / direttive per i crawler su un sito Web. Non sono nemmeno comparabili. Se hai ordinato ai robot di non visitare / seguire, /foo
tutti i robot che obbediscono alle direttive dei tuoi robot semplicemente non visiteranno quella directory indipendentemente dal percorso intrapreso per arrivarci (mappa del sito o altro).
Nel webmaster di Google: mostra un errore nella tua Sitemap XML che "Hai inserito un link a cui è vietato eseguire la Scansione nel tuo file robots.txt. Google preferisce il file robots.txt piuttosto che la Sitemap.