Perché Google ha smesso di indicizzare le pagine dal nostro sitemap.xml?


18

Stiamo vedendo alcune pagine presenti nel nostro sitemap.xmlma inspiegabilmente mancanti dall'indice di ricerca pubblica di Google.

Non è possibile scaricare /superuser//sitemap.xml - proteggiamo questo file perché in passato si sono verificati problemi con esso - ma googlebot può farlo. Abbiamo verificato tramite gli Strumenti per i Webmaster di Google che il sitemap.xmlfile è stato rimosso oggi e che è stato valutato OK senza errori (segno di spunta verde).

testo alternativo

Il sitemap.xmlcontiene un elenco delle ultime 50.000 domande sul nostro sito che sono state poste. Ad esempio, questa domanda ...

/superuser/201610/how-to-see-the-end-of-a-long-chain-of-symbolic-links

... esiste nel sitemap.xml...

<url>
<loc>/superuser/201610/how-to-see-the-end-of-a-long-chain-of-symbolic-links</loc>
<lastmod>2010-10-20</lastmod>
<changefreq>daily</changefreq>
<priority>0.2</priority>
</url>

La ricerca di "Come vedere la fine di una lunga catena di collegamenti simbolici" dà un solo risultato a questionhub.com che sta raschiando i nostri dati (un problema completamente diverso).

Puoi aumentare il numero di domande e fare una ricerca esatta per il titolo della domanda e vedrai che questo modello persiste.

Questi URL sono in sitemap.xml ma non vengono visualizzati nell'indice di Google - e tuttavia vengono visualizzati su siti che scaricano i nostri dati di creatività comuni. Perché dovrebbe essere?


5
Puoi sempre chiedere nei forum centrali dei webmaster di Google. google.com/support/forum/p/Webmasters?hl=it
Alex Black

Qualcosa è decisamente sbagliato. Questa domanda è già indicizzata su Google, ma la domanda collegata sul superutente STILL non viene visualizzata nell'indice.
Michael Pryor,

Jeff potrebbe pensare di chiedere a Matt Cutts. Li ho visti parlare tra loro alcune volte su Twitter. Di solito è abbastanza disposto ad aiutare.
Virtuosi Media,

3
FWIW Al momento stiamo riscontrando alcuni problemi con l'indicizzazione di nuovi contenuti su alcuni siti. C'è una discussione nei nostri forum di assistenza su google.com/support/forum/p/Webmasters/… su questo. L'URL che hai citato sembra essere interessato. Immagino che questo verrà risolto a breve, ma non sono disponibili tempi fissi. Grazie per la vostra pazienza.
John Mueller,

1
Sembra che questo sia stato risolto ora :-). Ho provato alcune delle nuove domande dal sito e sono state tutte indicizzate. Woot!
John Mueller,

Risposte:


10

Sembra che Google abbia avuto alcuni problemi di scansione tecnica questa settimana, che somiglia notevolmente a quello che stavamo vivendo:

http://searchengineland.com/is-google-broken-sites-big-small-seeing-indexing-problems-53701

Nessuno sembra essere immune da un problema di indicizzazione di Google che ha sconcertato molti proprietari di siti. Blog e siti Web, grandi e piccoli, non vengono indicizzati così rapidamente come sono normalmente, se non vengono affatto indicizzati.

...

John di Google ha risposto alla discussione nei forum Webmaster dicendo:

Per essere chiari, i problemi di questo thread, che ho esaminato in dettaglio, non sono dovuti a cambiamenti nelle nostre politiche o cambiamenti nei nostri algoritmi; sono dovuti a un problema tecnico dalla nostra parte che sarà visibilmente risolto il più presto possibile (potrebbero essere necessari alcuni giorni per essere visibili per tutti i siti)


7

Google non fa alcuna offerta né garantisce che le pagine di una Sitemap vengano indicizzate.

La mia esperienza è stata che una pagina deve essere collegata (da una pagina di qualche autorità) per essere visualizzata. Quella pagina / domanda è collegata direttamente / indirettamente da una pagina con qualche autorità?

Ad esempio, se la homepage di superuser.com (che presumibilmente ha molti link) è collegata direttamente a questa domanda, o collegata ad essa indirettamente attraverso un numero di altre pagine, allora ci si potrebbe aspettare che sia indicizzata.

Da google:

Google non garantisce che eseguiremo la scansione o l'indicizzazione di tutti i tuoi URL. Tuttavia, utilizziamo i dati nella tua Sitemap per conoscere la struttura del tuo sito, il che ci consentirà di migliorare la nostra pianificazione del crawler e fare un lavoro migliore durante la scansione del tuo sito in futuro. Nella maggior parte dei casi, i webmaster trarranno vantaggio dall'invio della Sitemap e in nessun caso sarai penalizzato per questo.

http://www.google.com/support/webmasters/bin/answer.py?hl=en&answer=156184


4
Superuser dovrebbe avere collegamenti e PR sufficienti per ottenere l'indicizzazione di quelle pagine con o senza una sitemap. E le pagine minori vengono elencate in ogni momento. In realtà costituiscono la maggior parte dell'indice. Sospetto che qualcos'altro sia il colpevole.
John Conde

D'accordo, il sito ha molte PR e link. Ma c'è una possibilità che la pagina in questione non abbia link? Se superuser.com (per caso) non si collega alla pagina, cosa dice questo a Google? dice che la pagina non è importante.
Alex Black,

2
La pagina è stata sicuramente collegata dalla prima pagina e continua ad essere collegata da un numero di altre pagine. I siti SE sono fortemente reticolati.
Kevin Montrose

1
a un certo punto ieri uno dei miei successi per una domanda di prova è stata la homepage di superuser.com - con l'URL di destinazione visibile su di esso, anche nella cache di Google! Eppure la domanda stessa non è stata indicizzata. Molto strano.
Jeff Atwood,

2
assolutamente - fai clic sulla scheda CALDO nella home page o sulla scheda SETTIMANALE o MENSILE. Proprio lì ..
Jeff Atwood,

3

Penso che Google stia avendo difficoltà a indicizzare le tue pagine Web, 50.000 sono molte. Quindi il mio suggerimento sarebbe di scomporre la tua sitemap in pezzi del genere

<?xml version="1.0" encoding="UTF-8"?>
<sitemapindex xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
   <sitemap>
      <loc>http://www.example.com/sitemap1.xml.gz</loc>
      <lastmod>2004-10-01T18:23:17+00:00</lastmod>
   </sitemap>
   <sitemap>
      <loc>http://www.example.com/sitemap2.xml.gz</loc>
      <lastmod>2005-01-01</lastmod>
   </sitemap>
</sitemapindex>

In caso di guasto, avrai una fortuna maggiore di indicizzare questi 50.000 URL.

Sitemaps.org spiegazione del problema

Puoi fornire più file Sitemap, ma ogni file Sitemap fornito non deve avere più di 50.000 URL e non deve superare i 10 MB (10.485.760 byte). Se lo desideri, puoi comprimere i tuoi file Sitemap usando gzip per ridurre i requisiti di larghezza di banda; tuttavia, il file Sitemap una volta decompresso non deve essere maggiore di 10 MB. Se desideri elencare più di 50.000 URL, devi creare più file Sitemap.

Se fornisci più Sitemap, devi elencare ogni file Sitemap in un file indice Sitemap. I file di indice delle Sitemap non possono elencare più di 50.000 Sitemap e non devono essere più grandi di 10 MB (10.485.760 byte) e possono essere compressi. Puoi avere più di un file indice Sitemap. Il formato XML di un file indice Sitemap è molto simile al formato XML di un file Sitemap.

http://sitemaps.org/protocol.php


2
Le Sitemap con 50.000 pagine sono molto comuni. In effetti qualcuno ha recentemente pubblicato uno screenshot dal proprio account webmaster che mostra a Google di aver indicizzato quasi tutte le 50.000 di quelle pagine. E sospetto che il superutente sia più popolare (ad es. Abbia una migliore popolarità dei link) rispetto a quell'altro sito.
John Conde

1
"Hai più di 50.000 URL da elencare. È il massimo che può includere una Sitemap." sitemaps.blogspot.com/2005/08/using-sitemap-index-files.html
Jeff Atwood

1
Se hai una Sitemap per ogni giorno che non cambiano mai dopo la fine della giornata, in modo che non sia necessario accedere nuovamente alla Sitemap, possono eseguire la scansione dei collegamenti che hanno già indicizzato per le modifiche, quindi Google non deve passare attraverso 50.000 url ogni giorno per vedere quali sono vecchi e quali sono nuovi.
Sevki,

@sevki la più antica 50.001a domanda entro la DATA DI ATTIVITÀ (nuove risposte, modifiche, ecc. in questa data) non sarà inclusa nella mappa del sito. Tieni presente che il superutente ha solo 55k domande in totale.
Jeff Atwood,

@Jeff ma SO.com ha 1.014.782 e 964.782 non si trovano in una Sitemap, quindi Google o Bing non sanno quando sono stati modificati l'ultima volta. Questo non aumenta le tue ricerche per indicizzazione. comunque non voglio essere fastidioso solo cercando di dare una mano, ti ho inviato una email con qualche dettaglio in più.
Sevki,

2

Sembra che Google stia affermando che 46.514 link inviati sono nell'indice. Potrebbe essere un problema con (odio dirlo) ma il posizionamento delle pagine? I siti di scraping potrebbero fare un miglior lavoro di cross-linking ecc. Ed essere classificati più in alto. Solo un pensiero.

Questo sito di ricerca : superuser.com Come vedere la fine di una lunga catena di collegamenti simbolici sembra anche recuperare correttamente il tuo sitemap.xml, anche se non restituisce i risultati previsti.


Quel sito di scraping dà l'attributo a superuser.com come autore originale (anche se potrebbero essere più espliciti al riguardo), quindi Google dovrebbe sapere di essere l'autore originale del contenuto e dare loro la precedenza sui siti di scraping.
John Conde

@john corretto, richiediamo l'attribuzione con follow, come documentato su blog.stackoverflow.com/2010/08/defending-attribution-required
Jeff Atwood,

quella mappa del sito memorizzata nella cache è "come appariva il 17 ottobre 2010 05:40:35 GMT", 4 giorni fa dal momento in cui scrivo questo, quindi non ha molto. Ho verificato alcuni URL in quel sitemap.xml memorizzato nella cache e esistono anche come pagine di domande su Google.
Jeff Atwood,

@john puoi fare un esempio di come danno l'attribuzione. Grazie
Greg B,

@Greg, cerca solo il logo del superutente
John Conde

2

Con questo tipo di cose ci sono molte potenziali risposte.

Comincerei chiedendo quante pagine hai effettivamente. (hai inviato 50.000 URL a un sito veloce: superuser.com mostra 125.000 indicizzati pensi di avere solo 50.000 URL e li stai inviando tutti, ma Google sta trovando 2-3 copie di ogni pagina? o forse hai 1 milione di URL e solo 12,5 % vengono indicizzati) ottenere una visione d'insieme aiuta a orientare dove cercare i problemi.

Se nulla sembra sbagliato con il primo passaggio, passerei al contenuto, sembra che QH abbia molti più contenuti sulla loro pagina e colleghi molte altre "risorse" nonostante il fatto che tutti i loro contenuti siano stati scartati, è possibile che Google consideri il loro pagina più utile poiché forniscono più risorse / informazioni all'utente. Se sono considerati l'autorità e tutti i tuoi contenuti sono uguali ai loro, è possibile che Google non indicizzi i tuoi anche se sei l'originale.

Se sei convinto che non sia questo il problema, crea dei link di alta qualità ad esso, scrivi questa domanda su alcuni dei blog dei dipendenti più popolari o chiedi ad alcuni amici di blog su di esso, forse se hai amici SEO che gestiscono blog popolari scrivono un case study a riguardo ecc.

Se ottieni molti collegamenti forti e non viene ancora indicizzato, cerca i motivi per cui potrebbe essere penalizzato (nella maggior parte dei casi questo non è il problema, ma non fa mai male controllare).

Se nulla di tutto ciò funziona, 9 volte su 10 è un semplice problema tecnico che è stato trascurato (esclusione dei robot o qualcosa di simile).

Se non hai ancora risposta dopo aver esaminato questo, chiedi a Google e spero che ti dia una risposta.


0

La domanda è stata posta ieri: dai una possibilità a googlebot, non sei l'unico sito su Internet che deve sottoporre a scansione, sai :)

Se le domande vengono normalmente indicizzate entro circa un giorno e passa una settimana e quella non è ancora indicizzata, allora potrei essere preoccupato. Ma certamente non dopo 1 giorno.


1
Di solito compaiono entro un'ora. Quindi sono d'accordo, dovrei dargli tempo, ma rispetto alla sua solita frequenza ... Ho.
Michael Pryor,

@michael assicurati di confrontare le mele con le mele - Google sembra indicizzare stackoverflow.com a un tasso MOLTO più alto rispetto agli altri nostri siti.
Jeff Atwood,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.