In che modo HTTP 418 viene trattato da Google e da altri in quanto non è un errore "reale"?


8

Mi chiedevo se sai come Google e altri motori di ricerca trattano un sito Web con codice di stato HTTP 418 I'm a teapot.

Secondo questo articolo di Wikipedia , può essere utilizzato come codice di errore del client (4xx). Vorrei utilizzare questo codice di errore per un sito Web di uova di Pasqua, che tuttavia dovrebbe essere trovato dai motori di ricerca.

Secondo questo post di 4 anni , lo stato 418 verrà ignorato da Google. Hai informazioni più recenti su questo argomento? Come reagiscono gli altri motori di ricerca sullo stato 418 (principalmente perché si tratta di un codice 4xx).

Risposte:


9

Se utilizzi lo strumento "Visualizza come Google" in Google Search Console su una pagina che restituisce lo stato "418 I'm a Teapot", segnala semplicemente un "Errore" e l'indicizzazione non può essere richiesta per questa pagina.

Nello screenshot seguente, gli "errori" cerchiati sono il risultato della richiesta di una pagina che restituisce uno stato 418. Non sono disponibili ulteriori informazioni in questa fase.

Schermata di Fetch come strumento di Google che mostra errori per 418 pagine

Secondo il mio registro di accesso, sia Googlebot che Search Console hanno visitato questa pagina, ma non è ancora apparso nell'indice.

Giusto per chiarire, questa è una nuova pagina, non precedentemente indicizzata. È collegato da una pagina indicizzata, che è stata anche reinviata (insieme a "pagine collegate") per l'indicizzazione, come mostrato nello screenshot sopra. Ho anche inviato una Sitemap XML che contiene questa pagina (anche se il conteggio "Indicizzato" non è ancora stato segnalato - VEDI AGGIORNAMENTO QUI SOTTO ). Ad essere sincero, non nutro molte speranze - sarei sorpreso se venisse indicizzato. Non solo perché è un codice 4xx, ma perché non è un codice di successo 2xx.

Di solito, puoi fare un test "Visualizza come Google" e quindi richiedere che la pagina venga indicizzata. Questo di solito è molto rapido ("istantaneo") per una singola pagina, ma questa opzione non è disponibile nella pagina precedente.

Secondo questo post di 4 anni, lo stato 418 verrà ignorato da Google.

Per "ignorato", significano che viene trattato come 200 OK stato. (Che non è proprio lo stesso di essere "ignorato" nel mio libro, a meno che non sia stato letteralmente ignorato e Google non abbia fatto "nulla"?) Il "problema" con quel post sul blog è che stanno testando una pagina già indicizzata. Restituire uno stato 4xx non necessariamente farebbe comunque cadere la pagina dall'indice, almeno non per un tempo considerevole (a seconda della velocità di scansione), anche se secondo quanto riferito hanno aspettato "alcune settimane". Inoltre, non menzionano errori di scansione segnalati negli Strumenti per i Webmaster di Google (da quando sono stati cambiati in Google Search Console).

non è un errore "reale"

O è? Potrebbe essere stato implementato come uno "scherzo" all'inizio, tuttavia indica probabilmente uno "stato di errore". Penso che sarebbe più contraddittorio che un codice 4xx non venga trattato come uno "stato di errore". Ed è ancora "attuale". L'originale RFC 2324 del 1998 che ha definito questo codice di stato è stato persino aggiornato nel 2014 con RFC 7168 .

La maggior parte degli strumenti vedrà lo stato 418 come un errore. O vedi solo 200 come successo. "Apache log viewer" e "Screaming Frog SEO Spider" vedono sicuramente il codice 418 come un errore.

Secondo quanto riferito, alcuni server Web implementano il codice di stato 418:

Stack Exchange utilizza anche questo codice di stato HTTP quando rileva violazioni CSRF:

AGGIORNAMENTO 2017-03-31 (2+ settimane dopo): la pagina che restituisce un codice di stato HTTP 418 non è indicizzata da Google. Il rapporto Sitemap XML in GSC ora mostra che solo uno dei due URL inviati nella Sitemap è indicizzato (un URL restituisce un 200 e viene indicizzato, l'altro restituisce un 418 e non è indicizzato).

Per inciso, GSC ha impiegato quasi 2 settimane per riferire sullo stato dell'indice degli URL nella Sitemap, ma ciò non si riferisce a quando le pagine sono state effettivamente indicizzate. Ad esempio, una pagina era già indicizzata al momento dell'invio della Sitemap, tuttavia, guardando solo il rapporto Sitemap sembra che la pagina sia stata indicizzata solo 13 giorni dopo l'invio della Sitemap.

L'URL che restituisce un 418 è ora riportato come "Errore di scansione" in Scansione> Errori di scansione e il 418 è indicato come codice di risposta. Secondo il rapporto, questo è stato "rilevato" il 16-03-2017 (il giorno successivo dopo aver inviato la richiesta di indice sopra), tuttavia, è stato qualche tempo prima che questo fosse segnalato in GSC.


1
Chi potrebbe migliorare su questo? Nessuno. Saluti!!
closetnoc,

3
Oltre allo stato 200, Google sa come gestire i codici di reindirizzamento (301, 302, 303, 307, 308). A parte questi codici specifici, immagino che Google tratti praticamente tutto il resto come un "errore".
Stephen Ostermiller

1
Aggiornamento: la pagina che restituisce un 418 non è indicizzata e Google ora lo segnala esplicitamente come un errore di scansione. Ho aggiornato la mia risposta.
Mr White,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.