Strumenti per i Webmaster di Google mi informa che i robot stanno bloccando l'accesso alla Sitemap


11

Questo è il mio robots.txt :

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/

Sitemap: http://www.example.org/sitemap.xml.gz

Ma Strumenti per i Webmaster di Google mi dice che i robot stanno bloccando l'accesso alla Sitemap:

Si è verificato un errore durante il tentativo di accedere alla tua Sitemap. Assicurati che la tua Sitemap segua le nostre linee guida e sia possibile accedervi dalla posizione che hai fornito, quindi invia nuovamente: URL limitato da robots.txt .

Ho letto che Strumenti per i Webmaster di Google memorizza nella cache robots.txt , ma il file è stato aggiornato più di 36 ore fa.

Aggiornare:

Colpire la Sitemap TEST non fa sì che Google recuperi una nuova Sitemap. Solo la Sitemap INVIA è stata in grado di farlo. (A proposito, non vedo qual è il punto in 'test sitemap' a meno che non incolli la tua sitemap corrente lì - non recupera una nuova copia della sitemap dall'indirizzo che ti chiede di inserire prima del test - ma questo è una domanda per un altro giorno.)

Dopo aver inviato (invece di provare) una nuova Sitemap, la situazione è cambiata. Ora ricevo "URL bloccato da robots.txt . La sitemap contiene URL che sono bloccati da robots.txt ." per 44 URL. Esistono 44 URL nella Sitemap. Ciò significa che Google sta utilizzando la nuova Sitemap ma continua a seguire la vecchia regola dei robot (che ha tenuto tutto fuori dai limiti) Nessuno dei 44 URL è presente /wp-admin/o /wp-includes/(il che è comunque impossibile, poiché robots.txt è basato su al volo dallo stesso plugin che crea la sitemap).

Aggiornamento 2:

Peggio ancora: su una pagina dei risultati di ricerca di Google, la descrizione per la home page recita: "Una descrizione per questo risultato non è disponibile a causa del sito robots.txt - ulteriori informazioni". Tutte le altre pagine hanno descrizioni precise. Non esiste alcun indicizzazione di meta-blocco robots.txt o robot sulla homepage.

Sono bloccato.


In Strumenti per i Webmaster di Google> Salute> URL bloccati, puoi immediatamente verificare se il tuo robots.txt bloccherebbe l'URL della tua Sitemap (o qualsiasi altro URL che desideri testare). Non sembra che il tuo attuale robots.txt debba bloccare la tua sitemap, ma dici che è stato aggiornato. Una versione precedente del tuo file robots.txt lo ha bloccato?
MrWhite,

1
Sì, la versione precedente ha bloccato. Immagino che Google non abbia aggiornato la sua cache ...
Gaia,

Ho esattamente lo stesso problema. La mia cache robots.txt è dal 23 aprile di quest'anno, oggi è il 25 aprile e la cache è ancora vecchia. Non ho tempo di aspettare, ho bisogno di googleboot per indicizzare il mio sito ora (è un sito aziendale) ma sembra che non possa fare nulla, aspetta solo di non sapere per quanto tempo. È così frustrante!

Risposte:


8

Sembra che Google probabilmente non abbia ancora aggiornato la sua cache del tuo file robots.txt. Il tuo attuale file robots.txt (sopra) non sembra che debba bloccare l'URL della Sitemap.

Immagino che Google non abbia aggiornato la sua cache.

Non è necessario indovinare. In Strumenti per i Webmaster di Google (GWT) in "Integrità"> "URL bloccati", puoi vedere quando il tuo robots.txt è stato scaricato l'ultima volta e se ha avuto esito positivo. Ti informerà anche di quanti URL sono stati bloccati dal file robots.txt.

riferimento robots.txt in Strumenti per i Webmaster di Google

Come menzionato nei miei commenti, GWT ha uno strumento di controllo robots.txt ("Integrità"> "URL bloccati"). Quindi puoi testare immediatamente le modifiche a robots.txt (senza cambiare il tuo file reale). Specifica il file robots.txt nell'area di testo superiore e gli URL che desideri testare nell'area di testo inferiore e ti dirà se verrebbero bloccati o meno.


Memorizzazione nella cache di robots.txt

Una richiesta robots.txt viene generalmente memorizzata nella cache per un massimo di un giorno, ma può essere memorizzata nella cache più a lungo in situazioni in cui non è possibile aggiornare la versione memorizzata nella cache (ad esempio, a causa di timeout o errori 5xx). La risposta memorizzata nella cache può essere condivisa da diversi crawler. Google può aumentare o ridurre la durata della cache in base alle intestazioni HTTP di controllo della cache max-age.

Fonte: Google Developers - Specifiche Robots.txt


Potrebbe essere ancora così dopo 24 ore ??
Gaia,

Qual è la data di "Download" come riportato in Strumenti per i Webmaster? Questo ti dirà se è ancora il caso . Come mostrato nello screenshot sopra (da uno dei miei siti), il file robots.txt è stato scaricato l'ultima volta il "3 settembre 2012" (3 giorni fa). Ma nel mio caso non è necessario scaricare di nuovo il file poiché nulla è cambiato (l'intestazione Ultima modifica dovrebbe essere la stessa). La frequenza con cui Google recupera il tuo file robots.txt dipenderà dalle intestazioni Scadenza e Ultima modifica impostate dal tuo server.
MrWhite,

Scaricato 22 ore fa e scade l'intestazione dice +24 ore. Proverò di nuovo tra un paio d'ore che dovrebbe essere risolto!
Gaia,

Quello non l'ha fatto. google sta utilizzando la nuova sitemap, ma continua a seguire la vecchia regola robots.txt (che ha tenuto tutto off-limits)
Gaia,

"Non è stato fatto": Google non ha ancora aggiornato la sua cache del tuo file robots.txt? Anche se dici di aver cambiato il file più di 36 ore fa ed è stato segnalato come scaricato 22 ore fa ?! Cosa vedi quando fai clic sul collegamento al tuo file robots.txt?
MrWhite,

2

Ho avuto lo stesso problema con il mio sito perché durante l'installazione WP seleziono non tracciare con il motore di ricerca o la stessa opzione.

Per risolvere questo problema:

  1. vai a Ricerche per indicizzazione di Strumenti per i Webmaster rimuovi l'URL e invia il tuo www.example.com/robots.txtcon questa opzione -> rimuovi dalla cache per cambiare contenuto o ...
  2. aspetta un minuto
  3. reinvia l'URL della Sitemap
  4. finire
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.