Come faccio a sapere quando un determinato URL è stato indicizzato per la prima volta da Google? Preferirei una soluzione che funzioni anche per gli URL dei concorrenti che non sono di mia proprietà.
Come faccio a sapere quando un determinato URL è stato indicizzato per la prima volta da Google? Preferirei una soluzione che funzioni anche per gli URL dei concorrenti che non sono di mia proprietà.
Risposte:
Per conoscere l'età di un URL puoi seguire questo link sostituendolo www.example.com
con l'URL che desideri:
https://www.google.com/search?tbs=cdr%3A1%2Ccd_min%3A1%2F1%2F2000&q=site%3Ahttp%3A%2F%2Fwww.example.com&safe=active&gws_rd=ssl
Ad esempio, ecco il risultato di Google per il sito Meta di Stack Overflow :
Altrimenti, anche la macchina Wayback è una buona soluzione ma meno precisa dalla mia esperienza.
.fr
a .com
.
www
anche in questo momento sta mostrando il risultato per data Dec 1, 2014
che è una data molto recente che non può essere l'età dell'URL. Sto cercando in modo errato? o manca qualcosa?
Zistoloen ha trovato un modo per far visualizzare a Google la data in cui indicizzava per la prima volta il contenuto della pagina. Lo sto aggiungendo anche alla mia risposta perché penso di poterlo spiegare più chiaramente.
Google mostrerà quindi la data in cui ha scoperto il contenuto presente nella pagina nei risultati della ricerca.
Se la pagina viene aggiornata con nuovi contenuti, Google aggiorna anche questa data. Quindi è più una data di "indicizzazione iniziale di questo contenuto" piuttosto che di "prima indicizzazione di questo URL".
La cache di Google per una pagina mostra quando la pagina è stata indicizzata l'ultima volta. Puoi vedere che la home page di Stack Exchange è stata indicizzata l'ultima volta oggi:
Un'altra opzione è utilizzare la macchina Wayback di Internet Archive . Questo ti mostra come appariva una pagina in passato. Puoi capire quando sono state pubblicate le pagine per la prima volta. Sia Google che Internet Archive eseguono la scansione e utilizzano la pagina poco dopo la sua prima pubblicazione.
bing.com
. Scusa se sbaglio?
Potrebbe non esserci alcun modo per scoprire quando una pagina web arbitraria è stata indicizzata per la prima volta da Google - certamente non conosco alcun modo per farlo. È possibile che Google semplicemente non memorizzi tali informazioni, poiché non esiste un motivo reale per cui dovrebbero farlo. Inoltre, anche se memorizzano queste informazioni, in realtà non hanno alcun motivo particolare per renderle liberamente disponibili a terzi.
(Se è la tua pagina e hai accesso ai vecchi registri di accesso al server web, è facile: basta cercare nei registri la prima visita da Googlebot a quella pagina. Ma altrimenti potrebbe non esserci modo di dirlo con certezza.)
In ogni caso, il metodo descritto da Zistoloen e Stephen Ostermiller nelle loro risposte non non generalmente rivelare la data in cui un particolare URL è stato indicizzato da Google prima. Piuttosto, mostra la data in cui Google pensa che il contenuto dell'URL sia stato pubblicato o aggiornato l'ultima volta e si basa spesso sui tentativi più o meno affidabili di Google di "annusare" le date dal contenuto della pagina stessa.
In questo video , Matt Cutts di Google accenna brevemente a come vengono scelte queste date. Per comodità, ho trascritto il pezzo rilevante del video (approssimativamente dalle 2:09 alle 2:22) di seguito:
"... spesso vedrai la data, quando la deduciamo, o quando l'abbiamo vista per la prima volta, ogni volta che abbiamo scansionato quella pagina, o se possiamo trovarla da qualche parte sulla pagina e possiamo estrarre quella data, tu ' Lo vedrò proprio all'inizio dello snippet. "
Per pagine come post di blog, pagine wiki o domande di scambio di stack, in cui il sito in esecuzione di software riporta automaticamente una data di creazione / modifica accurata sulla pagina stessa, è probabile che la data indicata da Google corrisponda ad essa. Per altri tipi di pagine, tuttavia, lo sniffer di data di Google deve lavorare di più e non sempre funziona correttamente (qualunque cosa "giusto" possa significare, in questo contesto).
In particolare, queste date sono sostanzialmente inutili per determinare quanto tempo fa una pagina è stata indicizzata , per due motivi:
Se una pagina è stata modificata di recente e la data di modifica è visualizzata in modo ben visibile sulla pagina, Google potrebbe prenderla come "la data" della pagina, anche se la modifica era completamente banale.
Ad esempio, questa pagina wiki piuttosto vecchia (che Archive.org ha indicizzato per la prima volta nel 2003 ) è attualmente datata da Google dal 10 novembre 2014 - la data in cui è stata modificata più di recente, come mostrato nella parte inferiore della pagina. Il cambiamento che è avvenuto in quella data? Basta rimuovere un singolo link dalla parte inferiore della pagina.
Al contrario, Google sembra essere felice di accettare "date di pubblicazione" molto vecchie se le trova sulla pagina, anche quelle che precedono il lancio del World Wide Web .
Ad esempio, questa pagina su un vecchio concorso di programmazione è datata da Google al 15 settembre 1986, in realtà la data dell'evento descritta nella pagina. Allo stesso modo, questa pagina che documenta uno sciopero degli studenti nel 1970 è datata da Google al 10 maggio 1970 (la data di uno dei documenti scansionati sulla pagina) e, ancora più assurdamente, questa pagina del manuale di Linux è datata da Google al 4 novembre , 1989 (una data di esempio casuale utilizzata nella pagina).
Puoi trovare molti altri esempi simili usando la ricerca personalizzata dell'intervallo di date descritta da Stephen e Zistoloen, ma impostando l'estremità superiore dell'intervallo, diciamo, il 6 agosto 1991 .