Comprensione delle statistiche di scansione di Google


11

Ho lanciato il mio sito Web nel gennaio '11 ed è indicizzato su Google, il che è fantastico: circa 300 pagine di contenuti finora. Sto cercando di capire cosa è successo alle Crawl Stats tra la fine di giugno e l'inizio di luglio. Cosa ha causato l'arrampicata massiccia? Cosa significa andare avanti? C'è qualcos'altro che dovrei fare?


inserisci qui la descrizione dell'immagine

Risposte:


2

Se ritieni che stiano eseguendo una scansione eccessiva del tuo sito (forse mancando anche di contenuti più profondi), devi assicurarti che le intestazioni HTTP stiano restituendo buoni valori per cose come il tempo "lastmodified" ecc. È possibile che Googlebot sopravvaluti quanto sta cambiando il tuo sito . Come bonus, il tuo sito si comporterà meglio per quanto riguarda la memorizzazione nella cache (sia essa basata su proxy o browser) e quindi si sentirà un po 'più veloce.

Faresti bene a studiare quali URL vengono sottoposti a scansione (rivedendo i log del tuo server). Se stanno ripetendo nuovamente lo stesso URL, avrai sicuramente un problema. Una variante comune su questo è se hai una pagina che può essere visualizzata in molti modi diversi usando le variabili di richiesta. Googlbot può provare a eseguire la scansione di ogni possibile combinazione di tali variabili.

Un esempio che ho riscontrato come operatore di scansione è una pagina con un elenco di venti intestazioni, qualsiasi combinazione delle quali potrebbe essere espansa. Fondamentalmente, quella pagina aveva 2 ^ 20 URL diversi!

Assicurati che Googlebot non rimanga bloccato eseguendo la scansione della stessa pagina più e più volte con parametri banalmente diversi (l'ho visto impigliato in questo)


Grazie per questo, ho notato che oggi c'è stato un altro "picco" nell'attività, quindi sto diventando più preoccupato mentre le statistiche di Google Crawl hanno eseguito la scansione di 1.000 pagine di contenuti: ne ho solo 300! Come faccio a controllare per quali pagine Google esegue nuovamente la scansione ripetutamente? E come posso verificare se le mie intestazioni HTTP stanno restituendo buoni valori: esiste un'app di prova?
Ubique,

I log del tuo server dovrebbero dirti quali pagine Google sta eseguendo la scansione. Per quanto riguarda le intestazioni HTTP, ci sono una serie di plugin di Firefox. Personalmente uso Firebug.
Kris,

1

Immagino che Google cambi la frequenza di scansione con l'età del sito, la popolarità (collegamenti al tuo sito), il markup e l'intestazione, le mappe del sito appropriate, ecc. Hanno anche cambiato il loro crawler qualche tempo fa in modo che i contenuti ora possano apparire nei risultati di ricerca molto più velocemente rispetto al passato (almeno 2 settimane prima della modifica).

Quindi, quando ho pubblicato il mio blog 2 anni fa, Google ha impiegato mesi per indicizzare tutti i contenuti e settimane per indicizzare nuovi post. Ora vedo qualsiasi post nei risultati di ricerca lo stesso giorno in cui lo pubblico.

Così semplice, a Google non piacciono i nuovi siti ma rispetta gli anziani.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.