Impedisci che le Sitemap XML vengano visualizzate nei risultati di ricerca di Google


23

Come posso impedire che i miei file Sitemap XML vengano visualizzati nei risultati di ricerca di Google come questo risultato di una site:query di ricerca:

Mappa del sito nei risultati di ricerca

Per prima cosa, non capisco perché Google abbia scelto di mostrare i file delle Sitemap nei risultati di ricerca. Questi file non sono pensati per il consumo umano.

Google deve essere in grado di sottoporlo a scansione per poterlo elaborare, quindi non posso impedirlo in robots.txt . Non voglio solo che lo inseriscano nei risultati di ricerca dopo averlo elaborato.


1
Huh. Interessante. L'unico pensiero che ho è se hai un link sul tuo sito o appare nel tuo file sitemap. Inoltre, non sono sicuro se ti riferisci ad esso nel tuo file robots.txt se questo può essere un fattore. Non la penso così, solo qualcosa da considerare. Fornisco la mia sitemap solo tramite Google WMT e non ho riscontrato questo problema, almeno non ancora. Posso capire di non voler rendere pubblica la tua sitemap. Non voglio il mio pubblico. Troppi hacker / raschiatori là fuori.
closetnoc,

3
Su questo particolare sito ho /sitemap.xmlelencato in robots.txt e poi quello si collega a un diverso set di altre sitemap come /sitemap-123.xmle /sitemap-124.xml. Rigenero le Sitemap ogni giorno e i numeri cambiano ogni giorno. Quello che è indicizzato è piuttosto vecchio. Non lo collego a nessuna parte del mio sito, ma è possibile che qualche altro sito abbia un collegamento ad esso da qualche parte.
Stephen Ostermiller

1
Se non viene utilizzato, assicurarsi che sia eliminato, quindi escluderlo nel file robots.txt e verrà eliminato dalle SERP abbastanza rapidamente. Stranamente, la cosa di rimozione dell'URL in Google WMT impiega un'eternità (mesi per me) mentre robots.txt è abbastanza veloce.
closetnoc,

1
Hai inviato la Sitemap XML al tuo account GWMT?
Oleg,

3
Il file Sitemap esisteva ancora fino ad oggi. L'ho rimosso e ora reindirizza a /sitemap.xml suppongo che questa particolare Sitemap ora cadrà dall'indice. Vorrei impedire a Google di mostrarli agli utenti di ricerca anche in futuro.
Stephen Ostermiller

Risposte:


18

Google indicizza sitemap XML (come qualsiasi file XML). Se Google è a conoscenza di un URL e restituisce una risposta valida, passerà le regole di inclusione di Google e potrebbe essere indicizzato. Personalmente, invio la sitemap solo tramite GWT e includo un Sitemap:riferimento in robots.txt e questo è certamente sufficiente per indicizzarlo.

Il metodo consigliato per impedire che questi file vengano indicizzati da Google è includere X-Robots-Tagun'intestazione di risposta HTTP durante la pubblicazione della Sitemap XML. Per esempio:

X-Robots-Tag: noindex

Proprio come includere un tag META robot nei file HTML, l' X-Robots-Tagintestazione può essere utilizzata per qualsiasi tipo di file.

Riferimento: questo documento (del novembre 2008!) Sembra citare il nostro John Mueller (Google) per quanto riguarda l'uso della X-Robots-Tagrisposta quando si tratta di sitemap XML.
Sì, Google indicizzerà e classificherà il tuo file Sitemap XML

Per ulteriori informazioni, consultare la guida per gli sviluppatori di Google: specifiche relative ai
meta tag robot e X-Robots-Tag HTTP


Dove devo scrivere il X-Robots-Tag: noindexcodice dell'intestazione? Dentro sitemap.xmlo robots.txt?
xameeramir,

1
@student È un'intestazione di risposta HTTP quindi deve essere impostata prima di pubblicare quei file (come parte dell'intestazione di risposta HTTP) - non può essere impostata "al loro interno". A seconda di come stai servendo questi file, puoi impostarlo nel tuo codice lato server (es. In PHP header('X-Robots-Tag: noindex',true)) o, se stai usando Apache, nel tuo file .htaccess o nella configurazione del server. Vedi la risposta di Stephen per esempio codice. Vedi anche la guida per gli sviluppatori di Google collegata sopra.
Mr White

8

La risposta di MrWhite sull'uso di X-Robots-Tag sembra essere il modo corretto per farlo.

Ecco il codice che può essere utilizzato nei file di configurazione .htaccess o Apache per farlo. (Riferimento: WebmasterWorld - Sitemap visualizzate in SERP - Come evitarlo? )

<Files ~ "sitemap.*\.xml(\.gz)?$">
  Header append X-Robots-Tag "noindex"
</Files>

Sotto nginx la configurazione sarebbe la seguente. (Riferimento: esempi Yoast X-Robots-Tag )

location ~* sitemap.*\.xml(\.gz)?$ {
    add_header X-Robots-Tag "noindex";
}

2

Perchè importa?

Se riesci effettivamente a trovare la tua sitemap in SERP, allora hai problemi più grandi.

Mi concentrerei di più sull'ottenere pagine con contenuti utili. In questo modo, avrai difficoltà anche a trovare la tua sitemap. Non che ti interessi a quel punto comunque.

PS

Praticamente tutti mantengono le sitemap nello stesso posto. Quindi, se qualcuno volesse trovare dove lo tieni, lo faranno :)


4
Uso Google per la ricerca nel sito e mi sono imbattuto in una Sitemap durante l'utilizzo. Sarebbe molto confuso per i miei utenti se facessero clic su di esso.
Stephen Ostermiller

Quanti dei tuoi utenti pensi utilizzino Google per la ricerca nel sito?
dasickle,

3
Tutti gli utenti che digitano i termini di ricerca nella casella di ricerca nella parte superiore delle mie pagine.
Stephen Ostermiller

In quel caso. Hai mai pensato di utilizzare qualcosa come swiftype.com per la ricerca del tuo sito? Ce ne sono molti altri che puoi usare. Puoi riordinare, rimuovere e aggiungere risultati. Ottieni anche ottime statistiche, ecc.
dasickle,

-6

inserisci quanto segue in robots.txt

User-agent: *
Disallow: /sitemap.xml

invece invia la tua Sitemap tramite gli strumenti per i webmaster di Google.


1
Potete per favore chiarire la vostra logica - la vostra prima frase sembra essere in conflitto con la vostra ultima?
Mr White,

5
Google continuerà a eseguire la scansione di una Sitemap bloccata in robots.txt? Hai un riferimento a supporto dell'asserzione?
Stephen Ostermiller

4
Se non autorizzi sitemap.xml, sono abbastanza sicuro che non verrà più sottoposto a scansione. Non qualcosa che vorresti succedere!
Max

2
Google non eseguirà la scansione di alcun documento con il robots.txt non consentito. Non di solito, comunque ... mappe del sito incluse.
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.