Come dire quanti anni ha una pagina?


15

Pensavo che Google fosse più o meno preciso nel determinare chi ha pubblicato un messaggio per primo e chi lo ha copiato. Tuttavia, quando uso lo "strumento di ricerca: intervallo personalizzato" i risultati sono piuttosto strani. Ho trovato pagine risalenti al 2002 per un sito web che ho avuto solo per un paio d'anni.

Quindi Google non è preciso a scoprire chi ha copiato e chi ha scritto l'originale. Cosa è?

inserisci qui la descrizione dell'immagine

Se è stackexchange.comstato creato nel 2009, come è possibile? hermeneutics.seè più vecchio di Stack Overflow!


Qualcuno possedeva il nome di dominio prima di te? Quali sono le pagine che stai confrontando in Google?
closetnoc,

Ho aggiornato la domanda con i dati SE. I timestamp non possono essere accurati.
Renan,

2
Wow. Non sono sicuro. Capisco i meccanismi di questo normalmente, ma quello che fa Google è ancora un mistero. Ci sono pochissime informazioni in rete su come Google determina le date. Abbiamo avuto una domanda su come Google determina le date modificate solo qualche tempo fa. Ho fatto delle ricerche e non c'è quasi nulla. Comunque, guarderò di nuovo. Ma potrebbero volerci un paio di giorni. Tieni presente che il software CMS e probabilmente il codice SE non restituiscono le date di creazione e modifica come farebbe Apache per le pagine HTML. E questa potrebbe essere la risposta.
closetnoc,

Non deve essere Google, ma voglio davvero sapere se i miei utenti stanno plagiando o essere plagiati. = /
Renan

Finora sembra che Google non capisca il formato della data all'interno dell'HTML ma questo non è conclusivo. Il codice sorgente della prima pagina di esempio non fornisce indizi chiari sulla data a Google. Google (almeno) guarda o una data in questo ordine: URL, titolo, corpo (contenuto), meta tag, data dell'ultima modifica dalla risposta HTTP. Una richiesta HEAD restituisce la data di creazione e la data dell'ultima modifica. Inoltre, OTTIENI con if-modificato-poiché restituisce la risorsa con un 200 Ok o restituisce un 304 Non modificato. Il codice SE potrebbe non restituire questi e sono disponibili solo URL, titolo, contenuto e meta tag.
closetnoc,

Risposte:


12

Ho cercato la risposta a questa domanda in questo modo: usando Google poiché questo è l'esempio che ho, come Google ottiene le date di creazione e le date modificate e i formati di data che Google riconosce. Ti preghiamo di comprendere che queste informazioni non esistono in poche pagine e che ho dovuto scovare i dati da moltissime fonti, alcune delle quali non sembrano applicarsi direttamente e metterle insieme. In alcuni casi, le informazioni derivano da diverse fonti e non sono sempre quotabili.

Google cerca le date delle pagine in questo ordine; URL, tag titolo, corpo (contenuto), meta-tag, intestazione di risposta HTTP almeno per quanto riguarda l'appliance di ricerca di Google. In altri paragrafi in altri documenti, nessun ordine è stato documentato, ma l'elenco è stato discusso e sembrava confermare l'elenco. Se ci pensate, questo rispecchia l'ordine che farebbe un motore di ricerca; uno: scopri la tua pagina (link) e due: leggi la tua pagina dall'alto verso il basso (titolo, corpo e meta-tag) con l'eccezione del meta-tag (piccolo dettaglio) e dell'intestazione della risposta HTTP. Ecco l'elenco per quanto riguarda l'apparecchio:https://developers.google.com/search-appliance/documentation/68/admin_crawl/Preparing#docdaterule

Nota: la data di inizio è la data in cui la pagina è stata richiesta per la prima volta da Google. In assenza di una data di creazione, viene utilizzata la data di inizio.

1] Qualsiasi motore di ricerca può richiedere una risorsa tramite una richiesta GET HTTP e il server Web restituisce l'ultima data modificata nell'intestazione della risposta con la risorsa all'interno del pacchetto di dati.

2] Qualsiasi motore di ricerca può richiedere le informazioni di intestazione di una risorsa tramite una richiesta HEAD HTTP e il server Web restituisce la data modificata all'interno dell'intestazione di risposta senza la risorsa all'interno del pacchetto di dati.

3] Qualsiasi motore di ricerca può richiedere se una risorsa è stata modificata da una certa data richiedendo una risorsa con un HTTP GET con if-modified-as impostato su una data. Se la risorsa è stata modificata dalla data impostata, il server Web risponde con una risposta di 200 Ok e restituisce la risorsa o se la risorsa non è stata modificata dalla data impostata, il server Web risponde con un 304 Non modificato senza restituire la risorsa .

Google effettua molte richieste utilizzando il metodo n. 3 per risparmiare sulla larghezza di banda. Li vedrai nei file di registro del tuo server web.

Nota: è possibile che un sistema di gestione dei contenuti (CMS) o altri software non possano fornire la data in modo appropriato all'interno di un'intestazione di risposta.

Questi esempi di date provengono anche dalla documentazione dell'appliance di Google ma esistono anche in altri luoghi riguardanti la ricerca generale. Ho preso questi dettagli dalla documentazione dell'appliance semplicemente perché poteva essere tagliato e incollato come un elenco in cui in altri posti non era così pulito.

4] Google cerca una data all'interno dell'URL. Cerca i seguenti formati; AAAAMMGG - AAAA - AAAAMM.

5] Google cerca una data all'interno del tag del titolo. Cerca i seguenti formati; AAAAMMGG - AAAA - AAAAMM, anche se sospetto che altri formati possano essere riconosciuti. Vedi sotto.

6] Google cerca una data all'interno del tag body (contenuto). Cerca i seguenti formati; AAAAMMGG - AAAAMMGG - AAAAMM - AAAA - GGMMAAA - AAAAMMGG - MMGGIAAA - AAAAMMGG - GGMMAA - MMGGGY, anche se sospetto che altri formati possano essere riconosciuti. Vedi sotto.

Nota: è noto che Google cerca specificamente una data appena sotto il primo H1tag. Questo perché i blog spesso mettono le date in questa posizione.

7] Google cerca un meta-tag come questo. <meta http-equiv="last-modified" content="YYYY-MM-DD@hh:mm:ss TMZ" />

Si dice anche che Google riconosca i seguenti formati di data.

AAAA-MD - AAAA.MD - AAAA / M / D - MD-AAAA - MDYYYY - M / D / AAAA - AA-MM-GG - AA.MM.DD - AA / MM / GG - WK, D MON, YR - WK, MON D, YR - D MON, YR - MON YYYY - MON D, YR - MON YY - YYYY-DM - ​​YYYY.DM - YYYY / D / M - DM-YYYY - DMYYYY - D / M / YYYY - GG-MM-AA - MM-GG-AA - GG / MM / AA - MM / GG / AA - AAAAMMGGH - AAAAMMGG - AAAAMM - AAAA - GGMMAAA - MMGG AAAA - AAAAMMGG - GGMMAA - MMGGG

La ricerca che ho trovato non ha risposto alla domanda del tempo.

Nel caso degli esempi citati, le pagine non forniscono indizi sulla data se non all'interno di un tag span che può essere ignorato. È possibile che il software / server web SE non possa restituire la creazione e le date modificate all'interno di qualsiasi intestazione di risposta.

Perché e come Google ha derivato queste date è una buona domanda che potrebbe non essere mai risolta. Continuerò a cercare comunque.


3
Hai qualche riferimento a "Google cerca le date delle pagine in questo ordine; URL, tag titolo, corpo (contenuto), meta-tag, intestazione di risposta HTTP."? Hai qualche numero o statistica per questa ricerca? Se potessi pubblicare riferimenti per ciò che hai pubblicato qui, sarebbe molto meglio per tutti noi.
PatomaS

Apprezzo che tu lo abbia chiesto. Gran parte di ciò che ho trovato è stato fatto a pezzi. L'elenco è stato trovato in diversi punti, ma l'ordine è stato trovato nella documentazione dell'appliance di ricerca di Google e sembrava essere stato eseguito il backup in paragrafi in altri punti. Ho letteralmente esaminato diverse dozzine di documenti che ci sono voluti un po 'di tempo per trovare. Ho cercato di stare attento a dire che dovevo mettere insieme i dati da una varietà di fonti poiché non sembra esserci alcuna informazione diretta su questo. Modificherò la dichiarazione per renderla più chiara.
closetnoc,

Posso anche confermare che la seguente stringa di formato data contenuta in un certo article.post > div.post-content > h2 > plivello è stata recentemente raccolta da Google e utilizzata per visualizzare la data: "Ultimo aggiornamento: 7 ottobre 2018"
Matt

-2

Se vuoi vedere quanti anni ha un dominio, cerca su Google la macchina del ritorno . Questo sito è quello che stai cercando: http://archive.org/web/ .

Se vuoi rilevare il plagio, questo link ti aiuterà: http://copyscape.com/signup.php?pro=0&o=f

Inoltre, cerca su Google "controllo del plagio".

Spero di averti aiutato.


3
Con rispetto, è necessario rileggere la domanda.
closetnoc,

La domanda è "Come si dice quanti anni ha una pagina?" Segui il mio link e vedrai che la risposta è buona. Grazie per aver letto questo.
Pascut,

3
Non stai leggendo la domanda. Stai leggendo il titolo. La via del ritorno alla macchina non risponde alla domanda.
closetnoc,

Hai ragione, ho modificato la mia domanda ..
Pascut,

1
La macchina Wayback tiene traccia della pagina nel dominio. Non è utile confrontare le date tra pagine specifiche. Sto cercando mezzi precisi per dire quale è stato pubblicato per primo.
Renan,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.