In che modo Google riconosce la data di pubblicazione di un post


17

Quando cerco qualcosa su Google, a volte vedo la data di pubblicazione del post / articolo sotto. Ho anche cercato un mio articolo che ho sul mio sito basato su Wordpress e Google riconosce anche la sua data di pubblicazione.

Quando apro la fonte del mio sito Web, non vedo alcun tag speciale o qualsiasi cosa che indichi la data di pubblicazione. È scritto solo in un div normale, con niente di speciale che può dire alla SE che è la data di pubblicazione (potrei avere anche altre date di altre cose sulla pagina).

Quindi è hardcoded in Google il luogo esatto della data di pubblicazione di Wordpress nella struttura del DOM o mi sto perdendo qualcosa?

Sto costruendo un nuovo sito Web, con il mio CMS e sto cercando di scoprire come implementare il riconoscimento pubblicato per data.


2
Ti manca sicuramente qualcosa: hai solo guardato l'HTML, ma ci sono anche intestazioni HTTP che dicono quando una pagina è stata modificata. Che cosa stanno segnalando per il permalink del tuo articolo? Immagino che Google lo usi in combinazione con i propri record di quanto è cambiata la pagina, ma non ho prove reali - da qui il commento piuttosto che una risposta.
Peter Taylor,

sì, la mia è stata una prova "approssimativa". Esaminerò elementi / intestazioni e sitemap non HTML come hanno suggerito anche altri
Can Poyrazoğlu,

@Peter Non ci sono dubbi sul fatto che le intestazioni HTTP (in particolare l'intestazione Ultima modifica) sono una metrica utilizzata dagli SE. Tuttavia, dubito che abbia un ruolo importante nel determinare la "data di pubblicazione" di un articolo, almeno non ciò che Google visualizza come data di pubblicazione. (Altri SE non sembrano mostrare una "data pubblicata"?) La data pubblicata di un articolo non è probabilmente l'ultima data modificata di un documento. La maggior parte delle pagine su siti dinamici (anche per i post di wordpress) sembrano tornare vicino alla data / ora corrente. IMO l'intestazione Ultima modifica è utilizzata principalmente per la memorizzazione nella cache.
MrWhite,

penso che abbia qualcosa a che fare con la sitemap ..
Can Poyrazoğlu,

Ultima modifica HTTP stackoverflow.com/questions/204010/… o alcuni metadati HTML semi-standard: stackoverflow.com/questions/4575967/… sono altre possibilità, ma non sono sicuro che Google li usi davvero.
Ciro Santilli 17 改造 中心 法轮功 六四 事件

Risposte:


4

dovresti consultare la Sitemap XML o la versione del feed RSS per indicizzare i tuoi dati di pubblicazione attraverso i principali motori di ricerca come Google, Yahoo e MSN. Generare sitemap XML per il tuo sito Web e inviarlo in strumenti Web master per l'indice.


7

Ho appena avuto il problema che tutte le mie pagine principali sono state mostrate come aggiornate oltre 4 anni fa, anche se Google sa che non è vero perché le pagine sono state indicizzate per così tanto tempo e cambiano sostanzialmente di mese in mese. Dopo essere stato davvero perplesso, poi davvero infastidito, quindi di nuovo perplesso, ho finalmente trovato il problema. I nostri termini legali venivano offerti in un div nascosto con un "Ultimo aggiornamento: 30 ottobre 2007" e il div veniva caricato su quasi tutte le nostre pagine. (Perché viene visualizzato al momento della registrazione) L'ho rimosso e ora presumo che la data scompaia o venga corretta con qualcosa di più ragionevole.

Un racconto cautelativo e un'ulteriore prova del fatto che controllano la semantica del sito più dei dettagli tecnici o della loro cronologia di indicizzazione.


Includete la data dell'ultima modifica delle vostre pagine in qualsiasi altra parte della pagina, feed RSS o sitemap XML?
MrWhite,

Non lo so, perché il sito non è un sito di notizie e preferirei non enfatizzarlo. Idealmente, non ci sarebbe una data per la mia homepage. Inoltre, immagino che probabilmente prendano il lastmod con un grosso granello di sale - so che lo farei se fossi in loro.
mmdanziger

7

Dubito fortemente che la data di pubblicazione di un post o di un articolo sia basata sulla <lastmod>voce in una sitemap XML (come altri hanno suggerito) o sull'intestazione HTTP Ultima modifica modificata. Una Sitemap XML è solo consultiva, non autorevole. La data dell'ultima modifica di un documento non è probabilmente uguale alla data di pubblicazione (originale) di un articolo. E, come ho accennato nel mio commento nella parte superiore della pagina, l'ultima data modificata di un documento è probabilmente più importante per la memorizzazione nella cache e forse per determinare la velocità di scansione. L'intestazione HTTP Ultima modifica delle pagine generate dinamicamente è spesso molto vicina alla data / ora effettiva (come per i blog di WordPress).

Un feed RSS / Atom invece contiene questo nugget specifico di informazioni. E infatti, sui siti Wordpress che non includono la data di pubblicazione nel contenuto, la data di pubblicazione appare ancora nei risultati di ricerca di Google. E per quanto ne so, corrisponde alla data nel feed RSS.

EDIT # 1: Tuttavia, un feed RSS non contiene necessariamente tutte le pagine. Nella maggior parte dei casi dovrebbe contenere solo le pagine più recenti o aggiornate di recente. Ma non c'è motivo per cui Google debba dimenticare ciò che ha già letto e fornire il contenuto di quella pagina non è cambiato, quindi nemmeno la data dell'ultima modifica.

Se non ci sono feed RSS, penso che Google sia abbastanza intelligente da analizzare il contenuto della pagina. In particolare se le date sono contrassegnate "semanticamente" con l'aiuto di microformati . È perfettamente fattibile che Google vedrà quanto segue come la data autorevole pubblicata per un articolo in cui è contenuto:

<abbr class="published" title="2010-08-27T15:45:00-0700">
Friday, August 27th, 2010
</abbr>

Google certamente legge i microformati : hCard, hReview, ecc.

Solo per aggiungere, non credo che Google indicherebbe una data di pubblicazione a meno che non fosse in grado di trovare qualcosa di autorevole che lo suggerirebbe. Non dedurrà una "data di pubblicazione" su dati speculativi, dal momento che una "data di pubblicazione" errata non è utile a nessuno e Google ne trarrebbe molta importanza!

E solo per la cronaca (se @Tom sta suggerendo diversamente :) Penso che i post / articoli dovrebbero avere la data di pubblicazione visibilmente visualizzata. Molti non lo fanno, e questo può essere frustrante per il lettore, in particolare durante la ricerca di problemi di tecnologia e scopri che aver letto a metà dell'articolo è obsoleto!

EDIT # 2: da allora ho sperimentato un fastidio simile che @mmdanziger dettaglia nella sua risposta. Su uno dei miei vecchi siti ho il testo del modulo "Ultimo aggiornamento del sito dom 17 giu 2012" (non contrassegnato in alcun modo speciale) nella parte superiore di ogni pagina (scritto nella pagina con JavaScript !!). Questa stessa data è stata raccolta da Google e ora appare accanto a diverse (ma non tutte) pagine che compaiono nella SERPS - questa sicuramente non è la data di pubblicazione della pagina. Sembrerebbe che Google stia semplicemente tagliando la pagina per una stringa del modulo "ultimo aggiornamento ( datestring )" (dopo aver elaborato JavaScript !!). Questo particolare sito non ha un feed RSS. Il sito ha un file Sitemap.xml ma le date sono diverse.

Ho notato comportamenti simili anche su altri siti.


Come riconosce la data corretta da questo? <div class="footer"> <div class="links"> April 24, 2011 | <a href=...Questo è l'UNICO posto che fa riferimento alla data pubblicata del mio post e Google lo trova e viene visualizzato correttamente nei risultati di ricerca
Can Poyrazoğlu,

C'è qualcosa di specifico nell'ancora che lo segue? Inoltre, potrebbe non esserlo. Hai anche un feed RSS (collegato ai tag META del documento)?
MrWhite,

Stavo cercando la risposta "in che modo google determina la data?" ma ho notato la stessa cosa! Google prova a trovare una stringa di tempo nella pagina stessa anziché nell'intestazione modificata per l'ultima volta o Sitemap.xml <lastmod>! Grazie per aver confermato i miei pensieri!
evilReiko,

5

Penso che Google utilizzi Sitemap e feed RSS per riconoscere la data di pubblicazione. Puoi implementare questa funzione nel tuo CMS creando una mappa del sito XML secondo gli standard .

<lastmod>2011-08-18</lastmod>

2

Secondo Jonh Mueller di Google:

Usiamo una varietà di segnali per determinare quale data mostrare o se ha senso mostrarne una; non è legato a un attributo specifico.

John Mueller - Twitter

Tuttavia, trovo molto probabile che Google cerchi date nelle pagine Web nei seguenti luoghi:

  • In bella vista sulla pagina, usando l'apprendimento automatico
  • Schema.org ha strutturato i dati, specialmente se i dati possono anche essere trovati in bella vista sulla pagina

1

Penso che cerchi in modo intelligente qualsiasi data sulla pagina e quando è sicuro che sia la data pertinente la usa.

A volte è un po 'difficile poiché penso che possa avere un impatto negativo sulla capacità di clic della SERP, suppongo che possa avere un impatto positivo temporaneo se è un articolo / post recente ma sono abbastanza sicuro che i miei siti starebbero meglio senza di essa (Tuttavia, i ricercatori di Google potrebbero non stare meglio senza di essa!)

Non ci sono opzioni per controllarlo tramite Google, solo con i tuoi metodi. Puoi:

  • Sostituisci le date con immagini generate dinamicamente nel tentativo di impedire a Google di scoprirlo, ma ciò può portare ad altri problemi come allineamento visivo / visualizzazione coerente dei caratteri / accessibilità ecc.
  • Rimuovi tutte le date dalle pagine (questo potrebbe essere frustrante per i visitatori / utenti quando vogliono scoprire l'età di una fonte se hai informazioni pertinenti).

Per questi motivi lo ignorerei e basta.


Non sto cercando di rimuovere la data :) Sto cercando di aggiungere la funzione di data a un nuovo sito che sto costruendo ..
Can Poyrazoğlu,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.