Ho cercato la risposta a questa domanda in questo modo: usando Google poiché questo è l'esempio che ho, come Google ottiene le date di creazione e le date modificate e i formati di data che Google riconosce. Ti preghiamo di comprendere che queste informazioni non esistono in poche pagine e che ho dovuto scovare i dati da moltissime fonti, alcune delle quali non sembrano applicarsi direttamente e metterle insieme. In alcuni casi, le informazioni derivano da diverse fonti e non sono sempre quotabili.
Google cerca le date delle pagine in questo ordine; URL, tag titolo, corpo (contenuto), meta-tag, intestazione di risposta HTTP almeno per quanto riguarda l'appliance di ricerca di Google. In altri paragrafi in altri documenti, nessun ordine è stato documentato, ma l'elenco è stato discusso e sembrava confermare l'elenco. Se ci pensate, questo rispecchia l'ordine che farebbe un motore di ricerca; uno: scopri la tua pagina (link) e due: leggi la tua pagina dall'alto verso il basso (titolo, corpo e meta-tag) con l'eccezione del meta-tag (piccolo dettaglio) e dell'intestazione della risposta HTTP. Ecco l'elenco per quanto riguarda l'apparecchio:https://developers.google.com/search-appliance/documentation/68/admin_crawl/Preparing#docdaterule
Nota: la data di inizio è la data in cui la pagina è stata richiesta per la prima volta da Google. In assenza di una data di creazione, viene utilizzata la data di inizio.
1] Qualsiasi motore di ricerca può richiedere una risorsa tramite una richiesta GET HTTP e il server Web restituisce l'ultima data modificata nell'intestazione della risposta con la risorsa all'interno del pacchetto di dati.
2] Qualsiasi motore di ricerca può richiedere le informazioni di intestazione di una risorsa tramite una richiesta HEAD HTTP e il server Web restituisce la data modificata all'interno dell'intestazione di risposta senza la risorsa all'interno del pacchetto di dati.
3] Qualsiasi motore di ricerca può richiedere se una risorsa è stata modificata da una certa data richiedendo una risorsa con un HTTP GET con if-modified-as impostato su una data. Se la risorsa è stata modificata dalla data impostata, il server Web risponde con una risposta di 200 Ok e restituisce la risorsa o se la risorsa non è stata modificata dalla data impostata, il server Web risponde con un 304 Non modificato senza restituire la risorsa .
Google effettua molte richieste utilizzando il metodo n. 3 per risparmiare sulla larghezza di banda. Li vedrai nei file di registro del tuo server web.
Nota: è possibile che un sistema di gestione dei contenuti (CMS) o altri software non possano fornire la data in modo appropriato all'interno di un'intestazione di risposta.
Questi esempi di date provengono anche dalla documentazione dell'appliance di Google ma esistono anche in altri luoghi riguardanti la ricerca generale. Ho preso questi dettagli dalla documentazione dell'appliance semplicemente perché poteva essere tagliato e incollato come un elenco in cui in altri posti non era così pulito.
4] Google cerca una data all'interno dell'URL. Cerca i seguenti formati; AAAAMMGG - AAAA - AAAAMM.
5] Google cerca una data all'interno del tag del titolo. Cerca i seguenti formati; AAAAMMGG - AAAA - AAAAMM, anche se sospetto che altri formati possano essere riconosciuti. Vedi sotto.
6] Google cerca una data all'interno del tag body (contenuto). Cerca i seguenti formati; AAAAMMGG - AAAAMMGG - AAAAMM - AAAA - GGMMAAA - AAAAMMGG - MMGGIAAA - AAAAMMGG - GGMMAA - MMGGGY, anche se sospetto che altri formati possano essere riconosciuti. Vedi sotto.
Nota: è noto che Google cerca specificamente una data appena sotto il primo H1
tag. Questo perché i blog spesso mettono le date in questa posizione.
7] Google cerca un meta-tag come questo. <meta http-equiv="last-modified" content="YYYY-MM-DD@hh:mm:ss TMZ" />
Si dice anche che Google riconosca i seguenti formati di data.
AAAA-MD - AAAA.MD - AAAA / M / D - MD-AAAA - MDYYYY - M / D / AAAA - AA-MM-GG - AA.MM.DD - AA / MM / GG - WK, D MON, YR - WK, MON D, YR - D MON, YR - MON YYYY - MON D, YR - MON YY - YYYY-DM - YYYY.DM - YYYY / D / M - DM-YYYY - DMYYYY - D / M / YYYY - GG-MM-AA - MM-GG-AA - GG / MM / AA - MM / GG / AA - AAAAMMGGH - AAAAMMGG - AAAAMM - AAAA - GGMMAAA - MMGG AAAA - AAAAMMGG - GGMMAA - MMGGG
La ricerca che ho trovato non ha risposto alla domanda del tempo.
Nel caso degli esempi citati, le pagine non forniscono indizi sulla data se non all'interno di un tag span che può essere ignorato. È possibile che il software / server web SE non possa restituire la creazione e le date modificate all'interno di qualsiasi intestazione di risposta.
Perché e come Google ha derivato queste date è una buona domanda che potrebbe non essere mai risolta. Continuerò a cercare comunque.