Google sta ancora eseguendo la scansione e indicizzando le mie pagine di test vecchie, fittizie, che ora non sono state trovate


19

Ho impostato il mio sito con pagine e dati di esempio (lorem ipsum, ecc.) E Google ha eseguito la scansione di queste pagine. Ho eliminato tutte queste pagine e effettivamente aggiunto contenuti reali, ma negli strumenti per i webmaster ricevo ancora molti errori 404 che Google cerca di eseguire la scansione di queste pagine. Li ho impostati su "contrassegna come risolto" ma alcune pagine tornano ancora come 404.

Inoltre, ho molte di queste pagine di esempio ancora elencate quando eseguo una ricerca del mio sito su Google. Come rimuoverli. Penso che queste pagine irrilevanti stiano danneggiando la mia valutazione.

In realtà volevo cancellare tutte queste pagine e iniziare a far indicizzare il mio sito come nuovo ma ho letto che non è possibile? (Ho inviato una Sitemap e utilizzato "Visualizza come Google").

Risposte:


17

Va bene. Cominciando dall'inizio. Non contrassegnare il 404 come riparato . In realtà stai prolungando il problema. Google proverà a recuperare una pagina che restituisce più volte un 404 prima di arrendersi. Questo perché l'errore 404 indica una situazione temporanea in cui un errore 410 indica che la pagina è andata . Quindi ogni volta che contrassegni un 404 come riparato , stai effettivamente dicendo a Google di riprovare, avviando così di nuovo il processo di eliminazione.

Lasciate queste pagine 404 per un po 'e Google smetterà di cercarle e lascerà cadere le pagine dall'indice. Ci vorrà del tempo, ma a corto di un errore 410, questo è il modo più semplice. Un errore 410 renderebbe il processo più veloce, ma è più difficile presentare un errore 410 e un 404 è l'impostazione predefinita che lo rende la soluzione più semplice e naturale.

Le pagine rimosse scompariranno tra circa 30-60 giorni se puoi aspettare. Dipende dalla frequenza con cui Google visita le tue pagine. Può richiedere più tempo, ma una volta trovati 404, a Google piace prima controllare il sito, quindi a seconda di quanti 404 ci sono, il tuo sito potrebbe essere più aggressivo.

L'utilizzo di una Sitemap non risolve in genere alcun problema con l'indice. Semplifica la vita ai motori di ricerca. Non viene mai considerato come l'elenco completo delle pagine di qualsiasi sito. Se un motore di ricerca legge una Sitemap e trova ancora pagine non elencate nella Sitemap, continuerà a indicizzare quelle pagine.

Un'opzione se ha senso farlo è elencare queste pagine nel tuo file robots.txt. Se non ce ne sono troppi (ovvero qualcosa che puoi fare e il tuo file robots.txt non sarebbe troppo lungo), sarebbe una soluzione più veloce. Altrimenti, aspetterei e lascerei che gli errori 404 scadano da soli.

Un'ultima parola. Tu starai bene. Veramente. Funzionerà molto bene per te se sei paziente.


1
L'aggiunta di 404 pagine a robots.txt sembra una cattiva pratica. Confonderà solo il crawler e richiederà un sacco di pulizie completamente inutili.
Dorus,

@Doro Niente affatto. Uno non ha nulla a che fare con l'altro. L'aggiunta di qualsiasi pagina al file robots.txt rimuoverà la pagina dall'indice molto rapidamente. Inoltre, il motore di ricerca non proverà ad accedere al file e quindi no 404.
closetnoc

1
Come dici tu, se lo aggiungi a robots.txt il motore di ricerca non proverà ad accedere alla pagina, ma la pagina sarà ancora esistente. Quindi se un giorno lo rimuovi dai robot, l'indicizzazione tornerà. È una pratica migliore lasciare che il 404 o il 410 facciano il lavoro.

@closetnoc Cosa intendevi con it is harder to present a 410 error?
Evgeniy,

@Evgeniy Un errore 404 è ciò che viene dato per impostazione predefinita (almeno Apache e IIS precedente). Un errore 410 dovrebbe essere intenzionale e richiede un po 'di lavoro per realizzarsi. Tecnicamente, non è un compito difficile, tuttavia richiede un po 'di esperienza, anche se non molto. Saluti!!
closetnoc,

8

Una volta pubblicata una pagina, Google non se ne dimenticherà mai. Ho siti da cui ho rimosso pagine 15 anni fa. Googlebot torna ancora e controlla quelle pagine di tanto in tanto.

Per evitare che le pagine vengano visualizzate nel motore di ricerca, i tuoi errori 404 faranno il lavoro. Google potrebbe impiegare un giorno a rimuovere la pagina dall'indice dopo la successiva scansione di Googlebot. Se vuoi che venga rimosso più velocemente, restituisci invece lo stato "410 Andato". Google rimuove 410 pagine immediatamente dopo averle sottoposte a scansione anziché aspettare un giorno. Google non rimuove immediatamente 404 pagine per impedire ai webmaster di spararsi al piede come descritto da Matt Cutts :

Quindi con 404s, insieme a penso 401s e forse 403s, se vediamo una pagina e otteniamo un 404, proteggeremo quella pagina per 24 ore nel sistema di scansione, quindi aspettiamo e diciamo che forse è stato un 404 transitorio, forse in realtà non doveva essere una pagina non trovata.

Un altro metodo che potresti prendere in considerazione è il reindirizzamento. Il reindirizzamento di una vecchia pagina a una sostituzione impedirà che venga visualizzata come errore in Strumenti per i Webmaster di Google. Questo è possibile solo se c'è una nuova pagina per ciascuna delle vecchie pagine. Il reindirizzamento di tutte le pagine di test sulla tua home page non aiuta, perché Google considera i reindirizzamenti alla home page come errori "soft 404" che verranno comunque visualizzati in quel rapporto.

Avere 404 errori in Strumenti per i Webmaster non ti farà male. La presenza di alcuni errori 404 sul tuo sito può aiutarti anche perché mostra a Googlebot che il tuo sito è configurato correttamente. Ecco cosa dice John Mueller di Google (che lavora su Strumenti per i Webmaster e Sitemap) sui 404 errori che compaiono negli Strumenti per i Webmaster :

AIUTO! IL MIO SITO HA 939 ERRORI CRAWL !! 1

Vedo questo tipo di domanda più volte alla settimana; non sei solo: molti siti Web presentano errori di scansione.

  1. 404 errori su URL non validi non danneggiano in alcun modo l'indicizzazione o il posizionamento del tuo sito . Non importa se ci sono 100 o 10 milioni, non danneggeranno il posizionamento del tuo sito. http://googlewebmastercentral.blogspot.ch/2011/05/do-404s-hurt-my-site.html
  2. In alcuni casi, gli errori di scansione potrebbero derivare da un legittimo problema strutturale all'interno del tuo sito Web o CMS. Come lo dici? Ricontrolla l'origine dell'errore di scansione. Se sul tuo sito è presente un link non funzionante, nell'HTML statico della tua pagina, vale sempre la pena correggerlo. (grazie + Martino Mosna )
  3. Che dire degli URL funky che sono "chiaramente rotti?" Quando i nostri algoritmi come il tuo sito, possono provare a trovare più contenuti interessanti su di esso, ad esempio cercando di scoprire nuovi URL in JavaScript. Se proviamo quegli "URL" e troviamo un 404, è fantastico e previsto. Non vogliamo perdere nulla di importante (inserisci qui il meme Googlebot troppo attaccato). http://support.google.com/webmasters/bin/answer.py?answer=1154698
  4. Non è necessario correggere gli errori di scansione in Strumenti per i Webmaster. La funzione "Contrassegna come risolto" serve solo per aiutarti, se vuoi tenere traccia dei tuoi progressi lì; non cambia nulla nella nostra pipeline di ricerca web, quindi sentitevi liberi di ignorarlo se non ne avete bisogno. http://support.google.com/webmasters/bin/answer.py?answer=2467403
  5. Elenchiamo gli errori di scansione negli Strumenti per i Webmaster per priorità, che si basa su diversi fattori. Se la prima pagina di errori di scansione è chiaramente irrilevante, probabilmente non troverai errori di scansione importanti in altre pagine. http://googlewebmastercentral.blogspot.ch/2012/03/crawl-errors-next-generation.html
  6. Non è necessario "correggere" gli errori di scansione sul tuo sito Web. Trovare 404 è normale e ci si aspetta da un sito Web sano e ben configurato. Se hai un nuovo URL equivalente, reindirizzarlo è una buona pratica. Altrimenti, non dovresti creare contenuti falsi, non reindirizzare alla tua home page, non dovresti robots.txt non consentire tali URL - tutte queste cose ci rendono più difficile riconoscere la struttura del tuo sito ed elaborarlo correttamente. Chiamiamo questi errori "soft 404". http://support.google.com/webmasters/bin/answer.py?answer=181708
  7. Ovviamente - se questi errori di scansione vengono visualizzati per gli URL che ti interessano, forse gli URL nel tuo file Sitemap, allora è qualcosa su cui dovresti agire immediatamente. Se Googlebot non è in grado di eseguire la scansione dei tuoi URL importanti, potrebbero essere eliminati dai nostri risultati di ricerca e gli utenti potrebbero non essere in grado di accedervi.

1
Questa non è stata affatto la mia esperienza. Google vuole un nuovo indice ed elimina le pagine abbastanza rapidamente. Quello che vedo sembra simile a quello che descrivi, dove altri siti che utilizzano l'API di Google in passato, non aggiornano i loro dati e citeranno il tuo lavoro precedente. Questi sono spesso siti spam / spazzatura e queste citazioni possono apparire / rimanere / scomparire / riapparire. Il motivo principale che vedo per questo è perché l'API di Google era piuttosto promiscua e non è più così i dati di spamming sono molto più vecchi perché i dati più recenti sono molto difficili da trovare, soprattutto se hai fatto spam in passato.
closetnoc,

1
Googlebot ha una modalità di scansione che chiamo "abbiamo trovato una scatola di URL nel seminterrato". In questa modalità di scansione può eseguire la scansione di un migliaio di URL dal tuo sito di seguito, nessuno dei quali hai utilizzato per anni. Gli URL di solito non hanno collegamenti in entrata, anche da siti di scraper. Vengono sottoposti a scansione in ordine di lunghezza, gli URL più brevi vengono sottoposti a scansione per primi.
Stephen Ostermiller

Questo potrebbe essere vero. Google è chiaramente big data. Qualsiasi database di grandi dimensioni ha del rumore. Questo è inevitabile. Potrebbe essere quello che stai vivendo. È possibile che vari database vengano riconciliati. Ha senso. Ma ti avverto anche che i siti spazzatura possono apparire solo per 2 ore con vecchi link e vecchie citazioni. Lo vedo ogni giorno. Sono principalmente in Russia e Polonia. Questi siti vengono utilizzati per giocare ai motori di ricerca locali, ma effettuano il traffico verso qualsiasi sito e possono essere raccolti da Google. Ricevo circa 12 di questi nel mio database ogni giorno. In genere, rimane solo 1 sito su 12 per qualsiasi periodo.
closetnoc,

Che cos'è un errore 939?
Greg Nickoloff,

939 è il numero di errori, non è un tipo di errore.
Stephen Ostermiller

5

È probabile che Google continui a provare a eseguire la scansione di queste pagine per molto tempo. I webmaster commettono errori o i siti diventano non disponibili per qualsiasi motivo, quindi Google non rimuoverà i contenuti al primo segno di un 404.

In alternativa, potresti servire un 410 andato invece. Questo è un segnale molto più forte (cioè deliberato) che la pagina è letteralmente "andata" e non ritorna. Ciò potrebbe richiedere a Google di rimuovere prima la pagina dalle SERP.

Li ho impostati su "contrassegna come risolto" ma alcune pagine tornano ancora come 404.

Sono "risolti" solo se la pagina è stata rimessa. Se lo contrassegni come risolto e la pagina non esiste, l'errore di scansione si ripeterà semplicemente. Se la pagina non esiste, lasciala così com'è.

I 404 originali non danneggiano il tuo ranking di ricerca. Il rapporto 404 in GWT è principalmente a tuo vantaggio, quindi puoi vedere quando le cose vanno male ... quando non è possibile trovare le pagine che dovrebbero essere trovate!

Queste pagine irrilevanti nelle SERP sono forse un piccolo fastidio per i tuoi utenti, tuttavia, cosa stanno cercando per trovare il tuo lorem ipsum ?

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.