Dubito fortemente che la data di pubblicazione di un post o di un articolo sia basata sulla <lastmod>
voce in una sitemap XML (come altri hanno suggerito) o sull'intestazione HTTP Ultima modifica modificata. Una Sitemap XML è solo consultiva, non autorevole. La data dell'ultima modifica di un documento non è probabilmente uguale alla data di pubblicazione (originale) di un articolo. E, come ho accennato nel mio commento nella parte superiore della pagina, l'ultima data modificata di un documento è probabilmente più importante per la memorizzazione nella cache e forse per determinare la velocità di scansione. L'intestazione HTTP Ultima modifica delle pagine generate dinamicamente è spesso molto vicina alla data / ora effettiva (come per i blog di WordPress).
Un feed RSS / Atom invece contiene questo nugget specifico di informazioni. E infatti, sui siti Wordpress che non includono la data di pubblicazione nel contenuto, la data di pubblicazione appare ancora nei risultati di ricerca di Google. E per quanto ne so, corrisponde alla data nel feed RSS.
EDIT # 1: Tuttavia, un feed RSS non contiene necessariamente tutte le pagine. Nella maggior parte dei casi dovrebbe contenere solo le pagine più recenti o aggiornate di recente. Ma non c'è motivo per cui Google debba dimenticare ciò che ha già letto e fornire il contenuto di quella pagina non è cambiato, quindi nemmeno la data dell'ultima modifica.
Se non ci sono feed RSS, penso che Google sia abbastanza intelligente da analizzare il contenuto della pagina. In particolare se le date sono contrassegnate "semanticamente" con l'aiuto di microformati . È perfettamente fattibile che Google vedrà quanto segue come la data autorevole pubblicata per un articolo in cui è contenuto:
<abbr class="published" title="2010-08-27T15:45:00-0700">
Friday, August 27th, 2010
</abbr>
Google certamente legge i microformati : hCard, hReview, ecc.
Solo per aggiungere, non credo che Google indicherebbe una data di pubblicazione a meno che non fosse in grado di trovare qualcosa di autorevole che lo suggerirebbe. Non dedurrà una "data di pubblicazione" su dati speculativi, dal momento che una "data di pubblicazione" errata non è utile a nessuno e Google ne trarrebbe molta importanza!
E solo per la cronaca (se @Tom sta suggerendo diversamente :) Penso che i post / articoli dovrebbero avere la data di pubblicazione visibilmente visualizzata. Molti non lo fanno, e questo può essere frustrante per il lettore, in particolare durante la ricerca di problemi di tecnologia e scopri che aver letto a metà dell'articolo è obsoleto!
EDIT # 2: da allora ho sperimentato un fastidio simile che @mmdanziger dettaglia nella sua risposta. Su uno dei miei vecchi siti ho il testo del modulo "Ultimo aggiornamento del sito dom 17 giu 2012" (non contrassegnato in alcun modo speciale) nella parte superiore di ogni pagina (scritto nella pagina con JavaScript !!). Questa stessa data è stata raccolta da Google e ora appare accanto a diverse (ma non tutte) pagine che compaiono nella SERPS - questa sicuramente non è la data di pubblicazione della pagina. Sembrerebbe che Google stia semplicemente tagliando la pagina per una stringa del modulo "ultimo aggiornamento ( datestring )" (dopo aver elaborato JavaScript !!). Questo particolare sito non ha un feed RSS. Il sito ha un file Sitemap.xml ma le date sono diverse.
Ho notato comportamenti simili anche su altri siti.