Perché gli Strumenti per i Webmaster di Google eseguono la scansione di URL non validi e mostrano 500 errori?


11

Gli strumenti per i Webmaster di Google segnalano 12k + 500 errori. Eeek!

Nessuno degli URL è valido, tutti contengono www.youtube.com. Innanzitutto, perché Google esegue la scansione di questi URL se non esistono? Ho fornito una Sitemap e ovviamente non si trovano nella Sitemap.

Non ho un robots.txt che blocca nulla. Ho controllato i reindirizzamenti non validi - nessuno e ho verificato la presenza di tag non chiusi o qualcosa che avrebbe accidentalmente inserito www.youtube.com nell'URL - nessuno.

In ogni "linkato da", anche l'URL di riferimento è un URL non valido, con www.youtube.com. Google Tools non segnala malware e non riesco a controllare i registri del server perché l'host non mi dà accesso.

Davvero bloccato !! Qualche idea apprezzata!


Puoi pubblicare alcuni esempi per favore?
ionFish,

Il tuo sito Web è Wordpress o un'altra piattaforma Blog?
Ubique,

3
Se visualizzi errori HTTP 500 (errori del server) per URL non validi, probabilmente hai un problema con la configurazione: gli URL non validi devono restituire 404 o 410.
John Mueller,

Risposte:


8

Esistono (almeno) due motivi comuni per cui URL strani e alterati possono apparire come errori di scansione negli Strumenti per i Webmaster.

La prima possibilità è che qualcuno abbia copiato le tue pagine (o alcune altre pagine che rimandano alle tue) e abbia alterato i collegamenti nel processo. Questo accade più spesso di quanto si pensi; vedi ad esempio la sesta domanda in questo post del blog di Google Webmaster .

L'altra possibilità è che Googlebot stesso stia provando a seguire quelli che pensa siano collegamenti JavaScript e rovinando tutto . Di solito puoi distinguere questi due casi visitando la pagina di riferimento (che dovrebbe esistere ed essere accessibile, se Google è riuscito a scansionarlo per cominciare) e cercare il nome della pagina di destinazione nella sua origine.

Ad ogni modo, ci sono fondamentalmente due cose che puoi fare: o semplicemente ignorare i collegamenti o trovare alcune regole di riscrittura per provare a mappare gli URL rotti in quelli funzionanti. Se riesci a vedere un modello evidente negli URL e hai familiarità con regexps, consiglierei quest'ultimo approccio: pulirà il tuo elenco di errori di scansione e forse ti darà anche un piccolo e piuttosto sdolcinato, ma reale, incremento del PageRank .

Una terza opzione, se scopri che qualcuno ha copiato i tuoi contenuti senza permesso, è provare a farli cancellare . Puoi persino inviare un reclamo (e / o una richiesta di rimozione formale) al loro fornitore di hosting, se lo ritieni giustificato. Naturalmente, dato che a quanto pare si stanno ricollegando al tuo sito, potresti non trovare necessariamente la pena.


0

Google sta indicizzando il sito non immediatamente tutte le pagine contemporaneamente.

Pagine di indicizzazione di Google in primo luogo il livello più alto. Quindi, dopo pochi giorni, Google cerca di indicizzare più in profondità: il secondo livello di pagine (le pagine su cui Google ha trovato i collegamenti al primo livello di pagine) e così via. In questo modo Google prova a indicizzare ogni pagina del sito. Quindi Google crea un albero gerarchico di collegamenti e Google sa quali pagine sono collegate a ciascuna pagina.

Successivamente Google è arrivato a ciascuna pagina indicizzata dopo qualche tempo e controlla se il contenuto della pagina è cambiato. L'intervallo di indicizzazione per ogni pagina e ogni sito si basa su molti fattori.

Quindi, se si elimina una pagina e si aggiornano tutti i collegamenti a questa pagina su tutte le altre pagine, Google non la conosce immediatamente e tenta di indicizzare la pagina eliminata perché è pianificata l'indicizzazione di questa pagina nella sua pianificazione.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.