Posso invocare Google per controllare il mio robots.txt?


11

Ho letto le risposte a questa domanda, ma lasciano ancora aperta la mia domanda: Google cache robots.txt?

Non ho trovato alcun modo negli Strumenti per i Webmaster di Google per invocare un nuovo download del mio robots.txt .

Attraverso qualche errore, il mio robots.txt è stato sostituito con:

User-agent: *
Disallow: /

E ora tutti i miei contenuti sono stati rimossi dai risultati di ricerca di Google.

Ovviamente, sono interessato a correggerlo al più presto. Ho già sostituito il file robots.txt , ma non riesco a trovare un modo per fare in modo che Google aggiorni la versione cache.

inserisci qui la descrizione dell'immagine


1
Basta non consentire tutte le pagine in file robots.txt dovrebbe generalmente non essere sufficiente per rimuovere completamente loro di risultati di Google, a patto che altri siti ancora dei collegamenti a loro.
Ilmari Karonen,

Hmm è difficile. Gli URL ZenCart sembrano confondere il bot del crawler web robots.txt e prima che tu lo sappia, hai bloccato gli URL che non vuoi bloccare. La mia esperienza è che stai meglio senza robots.txt, ma solo mantenendo un sito web pulito. Ho perso molti posti in classifica a causa di questo blocco di errori robots.txt di URL validi. Poiché ZenCart utilizza URL dinamici, sembra confondere il crawler web robots.txt con conseguente blocco di URL che non si prevede di essere bloccati. Non sono sicuro se si riferisce alla disabilitazione di una categoria in ZenCart e quindi allo spostamento di prodotti fuori da quella categoria a

Risposte:


10

Non puoi farli scaricare di nuovo il tuo robots.txt quando lo desideri. Google eseguirà nuovamente la scansione e utilizzerà i nuovi dati ogni volta che lo riterranno appropriato per il tuo sito. Tendono a scansionarlo regolarmente, quindi non mi aspetto che ci vorrà molto tempo per trovare il tuo file aggiornato e le tue pagine sottoposte a una nuova scansione e una nuova indicizzazione. Tieni presente che potrebbe essere necessario un po 'di tempo dopo che il nuovo file robots.txt viene trovato prima che le tue pagine vengano nuovamente sottoposte a scansione e ancora più tempo per la loro ricomparsa nei risultati di ricerca di Google.


1
Secondo loro controllano ogni giorno o giù di lì, ma probabilmente controllano più spesso la presenza di siti occupati. Vedi webmasters.stackexchange.com/a/32949/17430 .
Studgeek

1

Ho avuto lo stesso problema quando ho iniziato il mio nuovo sito Web www.satyabrata.comil 16 giugno.

Ho avuto un Disallow: /nel mio robots.txt , esattamente come Oliver. È stato inoltre visualizzato un messaggio di avviso in Strumenti per i Webmaster di Google sugli URL bloccati.

Il problema è stato risolto ieri, 18 giugno. Ho fatto quanto segue. Non sono sicuro di quale passo abbia funzionato.

  1. Salute -> Visualizza come Google: robots.txt e la home page. Quindi, invia all'indice.
  2. Impostazioni -> Dominio preffered: visualizza URL come www.satyabrata.com
  3. Ottimizzazione -> Sitemap: aggiunta sitemap XML.

Il messaggio di avviso sugli URL bloccati è sparito ora e un nuovo file robots.txt viene mostrato scaricato in Strumenti per i Webmaster di Google.

Al momento, ho solo due pagine indicizzate in Google, la home page e robots.txt . Ho 10 pagine sul sito web. Spero che il resto venga presto indicizzato.


0

Ho avuto un problema a causa del quale le immagini venivano spostate su un server CNAME separato e nella cartella delle immagini veniva inserito un divieto. Il modo in cui l'ho chiarito è stato quello di far recuperare robots.txt nella pagina Web degli Strumenti per i Webmaster come strumento di Google. Una volta mi ha detto che aveva recuperato e letto robots.txt, l'ho inviato. Ciò ha interrotto un embargo di tre mesi sulle scansioni di immagini in cui Google ha riferito che stava leggendo il file robots.txt ma non stava cambiando il suo ragno per corrispondere alle regole modificate per consentire la cartella delle immagini. Entro una settimana, le immagini venivano nuovamente indicizzate.

Potrebbe valere la pena provare. Google è noto che occasionalmente si blocca e non riesce a rileggere il file.


Hanno riletto il file circa 6 ore dopo che ho pubblicato. Ormai tutto è tornato alla normalità.
Der Hochstapler,

Meno male! Torna in pista allora!
Fiasco Labs,

Ho provato a chiedere agli strumenti per i webmaster di recuperare robots.txt, mi sono lamentato del fatto che fosse stato negato da robots.txt :). Quindi apparentemente quel trucco non funzionerà se hai robots.txt che fa un blocco completo.
Studgeek

Lo stesso qui ... Richiesta di robots.txt negata da robots.txt! Hah!
Kasapo,

Whelp, se metti negare alla radice, suppongo che tu sia un po 'SOL. Nel mio caso, è stata rifiutata una sottocartella, costringendo così una rilettura di robots.txt attraverso i meccanismi forniti effettivamente funzionati.
Fiasco Labs


-1

Nel mio caso il problema era che stavo usando un servizio DNS gratuito chiamato fear.org.

(il mio dominio gratuito è terminato in .us.to)

Una volta passato a un TLD, ha iniziato a funzionare.


Non vedo che DNS o che abbia un sito gratuito abbia a che fare con robots.txt o che chieda a Google di recuperarlo.
Stephen Ostermiller

@StephenOstermiller: Neanche io vedo, ma il fatto è che questo mi ha aiutato nel mio caso.
Stefan Monov,

Ha aiutato Google a controllare il tuo robots.txt?
Stephen Ostermiller

@StephenOstermiller: Sì.
Stefan Monov,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.