Google memorizza nella cache robots.txt?

17

Ho aggiunto un file robots.txt a uno dei miei siti una settimana fa, il che avrebbe dovuto impedire a Googlebot di tentare di recuperare determinati URL. Tuttavia, questo fine settimana vedo Googlebot caricare quegli URL esatti.

Google memorizza nella cache robots.txt e, in tal caso, dovrebbe?

googlebot robots.txt google-cache

— Quog
fonte

13

Consiglio vivamente di registrare il tuo sito con Google Search Console (precedentemente Strumenti per i Webmaster di Google) . C'è una sezione di accesso del crawler nella configurazione del sito che ti dirà quando il tuo robots.txt è stato scaricato l'ultima volta. Lo strumento fornisce anche molti dettagli su come i crawler vedono il tuo sito, cosa è bloccato o non funziona e dove stai comparendo nelle query su Google.

Da quello che posso dire, Google scarica spesso robots.txt . Il sito di Google Search Console ti consentirà inoltre di rimuovere in modo specifico gli URL dall'indice, in modo da poter rimuovere quelli che stai bloccando.

— danivovich
fonte

2

Ho controllato gli strumenti per i webmaster: il file robots.txt è valido ed è stato recuperato più di recente 17 ore prima dell'ultima visita a quelle pagine da googlebot. Ho il sospetto che sia una questione di propagazione attraverso la rete di google - alla fine tutti i server di googlebot seguiranno le istruzioni robots.txt.

— Quog

Il bot di Google non utilizza robots.txt tutte le volte che vengono segnalati gli aggiornamenti nella Search Console. Sono passate quattro settimane da quando ho effettuato un aggiornamento e il bot di Google utilizza ancora un robots.txt male e distrugge il nostro traffico e le nostre classifiche.

— Corporate Geek,

3

Perseverare. Sono passato da robots.txt a meta noindex, nofollow. Per far funzionare il meta gli indirizzi bloccati in robots.txt dovevano essere prima sbloccati.

L'ho fatto brutalmente cancellando del tutto il robots.txt (e cancellandolo nel webmaster di Google).

Il processo di rimozione di robots.txt come mostrato nello strumento per i webmaster (numero di pagine bloccate) ha richiesto 10 settimane per essere completato, di cui la maggior parte è stata rimossa da google solo nelle ultime 2 settimane.

— araldh
fonte

Tendo ad essere d'accordo con te. Abbiamo fatto un errore e aggiornato erroneamente il file robots.txt. Google lo ha memorizzato nella cache e lo sta utilizzando quattro settimane dopo aver corretto l'errore e averlo sostituito con un nuovo robots.txt. Ho anche inviato manualmente una richiesta di aggiornamento in Strumenti per i Webmaster di Google e ... niente. Questo è davvero negativo in quanto ha comportato la perdita di traffico e classifiche. :(

— Corporate Geek,

2

Sì, Google ovviamente memorizzerà nella cache robots.txt fino a un certo punto: non lo scaricherà ogni volta che vorrà guardare una pagina. Per quanto tempo lo memorizza nella cache, non lo so. Tuttavia, se hai un set di intestazioni Expires lungo, Googlebot potrebbe lasciarlo molto più a lungo per controllare il file.

Un altro problema potrebbe essere un file non configurato correttamente. Negli Strumenti per i Webmaster suggeriti da Danivovich, c'è un controllo robots.txt . Ti dirà quali tipi di pagine sono bloccate e quali vanno bene.

— DisgruntledGoat
fonte

Vedi il commento su questa risposta webmasters.stackexchange.com/questions/2272/…

— Quog

2

@Quog: guarda questo video recente: youtube.com/watch?v=I2giR-WKUfY Matt Cutts suggerisce che robots.txt viene scaricato una volta al giorno o circa ogni 100 richieste.

— DisgruntledGoat

2

La documentazione di Google afferma che di solito memorizzeranno nella cache robots.txt per un giorno, ma potrebbero usarlo più a lungo se ottengono errori quando provano ad aggiornarlo.

Una richiesta robots.txt viene generalmente memorizzata nella cache per un massimo di un giorno, ma può essere memorizzata nella cache più a lungo in situazioni in cui non è possibile aggiornare la versione memorizzata nella cache (ad esempio, a causa di timeout o errori 5xx). La risposta memorizzata nella cache può essere condivisa da diversi crawler. Google può aumentare o ridurre la durata della cache in base alle intestazioni HTTP di controllo della cache max-age.

— Stephen Ostermiller
fonte

1

Sì. Dicono che in genere lo aggiornano una volta al giorno, ma alcuni hanno suggerito di poterlo controllare anche dopo un certo numero di hit di pagina (100?), Quindi i siti più occupati vengono controllati più spesso.

Vedi /webmasters//a/29946 e il video che @DisgruntedGoat ha condiviso sopra http://youtube.com/watch?v=I2giR-WKUfY .

— studgeek
fonte

1

Da quello che posso vedere nella cache accessibile dell'utente che fanno, quello che devi fare è digitare l'URL del tuo file robots.txt in una ricerca di Google e quindi fare clic sulla piccola freccia verde a discesa e fare clic su "cache" (vedi immagine sotto) questo ti darà l'ultima versione di quella pagina dai server di Google.

inserisci qui la descrizione dell'immagine

— sam
fonte

-2

Puoi richiederne la rimozione utilizzando lo strumento di rimozione URL di Google .

— KUZASHI SOUZA
fonte

Questo non risponde alla domanda.

— MrWhite,

perché non la risposta?

— KOZASHI SOUZA,

Perché la domanda riguarda specificamente robots.txt, la memorizzazione nella cache e la scansione degli URL. Uno dei risultati potrebbe essere che gli URL non sono indicizzati, ma non è questa la domanda. (Lo strumento di rimozione URL di Google è anche solo una correzione "temporanea", ci sono altri passaggi che devi fare per renderlo permanente.)

— MrWhite