Come abilitare (dis) correttamente il bot archive.org? Le cose sono cambiate, se è così quando?

10

Ho un sito Web che per lo più non voglio essere indicizzato dai motori di ricerca, ma voglio preservarlo per l'eternità su archive.org. Quindi il mio robots.txtinizia con questo:

User-agent: *
Disallow: /

Oggi, secondo archive.org, devo aggiungere quanto segue nel mio robots.txtper consentire i loro robot:

User-agent: ia_archiver
Disallow:

Ma, avevo già fatto quello che hanno indicato un paio di anni fa, almeno ho aggiunto quanto segue:

User-agent: archive.org_bot
Disallow:

Quindi c'è un'altra fonte che afferma che devi aggiungere le due Disallows sopra , più un'altra:

User-agent: ia_archiver-web.archive.org 
Disallow:

Nota che devi mettere Disallow: /se non vuoi che il bot archivi il tuo sito.

C'è stato un cambiamento con il bot IA? In tal caso, quando?

Qual è il modo raccomandato? Devo solo consentire tutti e tre per ora e sperare che IA non cambierà di nuovo il nome del bot in futuro?

web-crawlers robots.txt internet-archive

— kqw
fonte

Ero a conoscenza di ia_archiver. Gli altri sono una sorpresa per me. Hai collegamenti per questo? Il motivo per cui lo chiedo è che archive.org visita comunque il mio sito e ho dovuto bloccarli tramite l'indirizzo IP. È anche ricordare che si Sei desidera consentire archive.org ma poi parlare bloccandola. Voglio solo essere più chiaro su questo e i collegamenti possono aiutarci tutti. Grazie in anticipo!

— closetnoc,

Aggiornato la domanda. Spero sia più chiaro ora. La versione minuscola: non voglio i bot dei motori di ricerca su questo sito, voglio i bot di archive.org. Ma forse dovrei invertire la domanda poiché è quello che la maggior parte delle persone sta cercando?

— kqw,

In realtà, se non si utilizza nessuno di questi, si consente a archive.org di non bloccare con un'istruzione coperta.

— closetnoc,

Usare solo "ia_archiver" dovrebbe anche bloccare "ia_archiver-web.archive.org", quindi il successivo sembrerebbe non necessario (se questo bot segue lo standard).

— MrWhite,

Vedi il bot ia-archiver (o archive.org_bot) nei log di accesso?

— MrWhite,

9

Aggiornamento : come osserva @KevinFegan nei commenti, la loro documentazione è cambiata. La parte seguente descrive come Internet Archive lo ha gestito in passato (almeno nel 2014).

Le loro FAQ Come posso escludere le pagine del mio sito dalla Wayback Machine? si riferisce alla Rimozione di documenti dalla Wayback Machine , i documenti che viene chiamato il loro bot ia_archiver.

Quindi questo record dovrebbe consentire al proprio bot di eseguire la scansione dell'intero sito:

User-agent: ia_archiver
Disallow:

— unor
fonte

L'ordine dei gruppi non dovrebbe avere importanza. L' agente utente più specifico (ovvero il più lungo) che corrisponde è quello che vince. Il *gruppo corrisponde solo quando nessun altro gruppo ha trovato corrispondenza.

— MrWhite,

@ w3d: hai ragione, ho rimosso questa parte. Grazie per l'informazione :)

— unor

1

Apparentemente, questo è cambiato nel tempo. Non riesco a trovare "ia_archiver" nella pagina delle domande frequenti che hai fornito e in questa pagina del blog di Archive.org del 25 aprile 2017, Mark Graham afferma: L'agente utente "ia_archiver" viene utilizzato da Alexa Internet, non da Internet Archive.

— Kevin Fegan,

@KevinFegan: Grazie per il tuo avviso! Ho aggiornato la mia risposta per collegarmi alle versioni archiviate della documentazione che conteneva il nome.

— unor

Mi piace come complicano volutamente le cose in modo che possano scappare!

— Ultralisk,

5

Ci sono davvero 2 problemi qui:

Il robots.txttuo sito non consentirà (bloccherà) il ritorno dalla scansione del tuo sito.
Wayback eseguirà la scansione del tuo sito.

Per il punto 1:
come altri hanno già detto, la voce corretta per robots.txt è:

User-agent: ia_archiver
Disallow:

Tieni presente che potrebbe volerci un po 'di tempo (forse un bel po' di tempo) affinché Wayback rilevi eventuali modifiche apportate a robots.txt.

Per verificare se robots.txtsul tuo sito consentirà a Wayback di eseguire la scansione del tuo sito:

Vai a questo URL: https://archive.org/web/
Nella casella nella parte superiore della pagina, inserisci l'URL di una pagina sul tuo sito e fai clic sul "Browse History"pulsante.
Oppure, nella casella sotto "Salva pagina ora" (attualmente in basso a destra), inserisci l'URL di una pagina sul tuo sito e fai clic sul "Save Page"pulsante.

A questo punto, dovresti vedere 1 di 3 cose:

Verrà visualizzato un messaggio di errore che indica che Wayback non può accedere alle pagine di quel sito a causa di "robots.txt".
Vedrai il "calendario" dei punti di salvataggio storici per la pagina sul tuo sito. In questo caso, sai che Wayback NON è bloccato dalla scansione del tuo sito.
In alternativa, vedrai un messaggio che indica che Wayback non ha un archivio di quella pagina e un'offerta per fare clic su un collegamento per aggiungere la pagina a Wayback. Anche in questo caso, sai che Wayback NON è bloccato dalla scansione del tuo sito.

Ora, per il punto 2:

Will Wayback scansione del tuo sito?

Solo perché consenti a Wayback di eseguire la scansione del tuo sito, non significa che essi (mai) eseguiranno la scansione del tuo sito.

Secondo le FAQ di Wayback (enfasi aggiunta):

Come posso includere il mio sito nella Wayback Machine?

Gran parte dei nostri dati web archiviati provengono dalle nostre ricerche per indicizzazione o dalle ricerche per indicizzazione di Alexa Internet. Nessuna organizzazione ha un "crawl mio sito ora!" processo di invio. Le ricerche per indicizzazione di Internet Archive tendono a trovare siti ben collegati da altri siti . Il modo migliore per assicurarsi che troviamo il tuo sito web è assicurarsi che sia incluso nelle directory online e che siti simili / correlati rimandino a te.

Alexa Internet utilizza i propri metodi per scoprire i siti da sottoporre a scansione. Potrebbe essere utile installare la barra degli strumenti Alexa gratuita e visitare il sito che desideri sottoporre a scansione per assicurarti che ne siano a conoscenza.

Indipendentemente da chi esegue la scansione del sito, è necessario assicurarsi che le regole "robots.txt" del sito e le direttive dei robot META in-page non indichino ai crawler di evitare il sito.

Aggiornamento: 09 maggio 2017

Altri hanno lasciato commenti / risposte indicando che Archive.org non onora più robots.txt. Forse questo è un "work-in-progress" e alla fine sarà il caso, ma non ho ancora visto questo nuovo comportamento.

Il caso sembra provenire da questo articolo: Robots.txt: ROBOTS.TXT È UNA NOTA SUICIDA di archiveteam.org. Mentre quella pagina ha poco o niente di buono da dire su "Robots.txt", non menziona da nessuna parte che Archive.org non onorerà più robots.txt.

Nota anche: l'articolo è ospitato su archiveteam.org, il che sicuramente non lo è archive.org, e non sono sicuro che ci sia una relazione (ufficiale) tra archive.orge archiveteam.org.

In effetti, questa pagina su Archive Team , sembra dichiarare una distinzione tra e (enfasi aggiunta):archive.org archive.orgarchiveteam.org

Costituito nel 2009, il Team Archive (da non confondere con il Team Archive-It Archive.org ) è un collettivo archivista disonesto dedicato al salvataggio di copie di siti Web in rapido declino o cancellati per motivi di storia e patrimonio digitale. ...

In ogni caso, ho deciso di provarlo e ho scoperto che, almeno in questo momento, Archive.org STILL onora robots.txt:

Ho trovato un oggetto casuale su eBay: Articolo n .: 131795294232
Fai clic per visualizzare gli articoli venduti:

Si apre la pagina "Articoli venduti": http://offer.ebay.com/ws/eBayISAPI.dll?ViewBidsLogin&item=131795294232 Copia il link negli Appunti.
Vai a web.archive.org e incolla il link da eBay.
Vedrai che archive.orgindica che la "Pagina non può essere visualizzata a causa di robots.txt".

Quindi, in questo momento, non sono convinto, ma mi piacerebbe essere smentito ... sarebbe bello se fosse vero.

— Kevin Fegan
fonte

Il blocco di archive.org con robots.txt non funzionerà più:

— wortwart

@wortwart - Sarebbe fantastico se fosse così (vedi l'aggiornamento che ho aggiunto alla mia risposta). Hai collegamenti a informazioni su questo?

— Kevin Fegan,

Certo: blog.archive.org/2017/04/17/… "Alcuni mesi fa abbiamo smesso di fare riferimento ai file robots.txt sui siti web del governo e dei militari statunitensi (...) Ora stiamo cercando di farlo in modo più ampio. "

— Wortwart,

4

Aggiornamento 2017

Il bot di archivio ora non si preoccupa del tuo robots.txt.

Se vuoi davvero bloccarlo, invia loro un'e-mail secondo questa pagina o blocca il loro indirizzo IP tramite htaccess.

— Goyllo
fonte

2

Vedere l'aggiornamento maggio 2017 alla mia risposta: Come correttamente (dis) permettono il bot archive.org ...? . Il bot Archive si preoccupa ancora del file robots.txt, ad eccezione dei siti Web governativi. Nota che l'articolo che hai citato era tratto da www.archiveteam.org, che non è correlato a Archive.org. --->

— Kevin Fegan,

---> Mentre quella pagina ha poco o niente di buono da dire su "Robots.txt", non menziona da nessuna parte che Archive.org non onorerà più robots.txt. L'articolo pertinente di Archive.org è: Robots.txt pensato per i motori di ricerca non funziona bene con gli archivi web . "Alcuni mesi fa abbiamo smesso di fare riferimento ai file robots.txt sui siti web del governo e dei militari statunitensi (...) Ora stiamo cercando di farlo in modo più ampio."

— Kevin Fegan,

Sì. Ora l'Archivio ignora totalmente le richieste di rimozione.

— Ultralisk,

3

Il robots.txt ia_archiver Non consentire l'accesso (con "/") dovrebbe andare bene per il bisogno che descrivi ("preservare per l'eternità", ma non ancora pubblicamente).

Ho appena fatto un test rapido, commentando la voce Non consentire a ia_archiver per un sito che lo possedeva da almeno 10 anni. Poi ho cercato il sito su archive.org/web, e si è scoperto che ha raccolto nel 2007, 2008, 2009, 2011, 2012, 2013, 2014, 2015, 2016 e 2017! Ciò significa che Archive.org non ha mai onorato rigorosamente ciò che gli altri pensavano essere una dichiarazione "non archiviare" durante questi anni, semplicemente non stava esponendo le copie archiviate.

— Mike
fonte

2

"ia_archiver" è ora (ab) utilizzato da Alexa, alcune fonti dicono: 1 , 2 .
Archive.org ora (2018) NON rispetta più il "robots.txt". 3 Non solo per le pagine mil / gov, ma per tutte le pagine. Come sperimentato con il mio sito web privato, che ha e ha avuto un ia-escluso robots.txt dal 2012; e ora ho scoperto all'improvviso che è stato sottoposto a scansione e salvato da loro in tutti gli anni e ora l'intera storia è visibile. È una sensazione di essere tradito. > :-(

— Carl
fonte

1

Ho provato il robots.txtmetodo e non ha funzionato. Quindi ho contattato il sito Web nella loro e-mail info@archive.org:

Ciao,

Potete per favore rimuovere il mio sito personale dimitarnestorov.com dal vostro archivio?

Grazie!

Dimitar

E ho ottenuto la seguente risposta:

Ciao,

Internet Archive può escludere siti Web da Wayback Machine (web.archive.org), ma prima chiediamo rispettosamente di aiutarci a verificare che sei il proprietario del sito o autore dei contenuti di dimitarnestorov.com effettuando una delle seguenti operazioni:

(Nota: alcune di queste opzioni possono essere in riferimento al contenuto presente nelle precedenti acquisizioni di Wayback Machine e / o alla documentazione che potresti avere correlato al periodo di tempo specificato.)

pubblica la tua richiesta sulla versione corrente del sito (e inviaci un link).

invia la tua richiesta dal contatto di posta elettronica principale elencato sul sito e mostraci dove può essere localizzato (se presente).

inviare una richiesta dall'e-mail del dichiarante (se visualizzabile pubblicamente su una ricerca WHOIS a cui è possibile collegarci) o dall'e-mail del webmaster elencata sul sito.

indicaci dove le tue informazioni personali (nome, punto di contatto, immagine di sé) appaiono sul sito in un modo che ti identifica come proprietario del sito o autore del contenuto che desideri escludere - in questo caso, chiediamo per verificare la tua identità tramite una scansione di un documento di identità con foto valido (informazioni sensibili come la data di nascita, l'indirizzo o il numero di telefono possono essere redatte).

inoltraci comunicazioni da una società di hosting o registrar indirizzato a te come proprietario del dominio.

(Nota: la semplice menzione del nome / nome utente di qualcuno e / o di un collegamento ipertestuale / reindirizzamento tra siti / pagine / account in sé non è in genere sufficiente per escludere gli archivi.)

Se nessuna di queste opzioni è disponibile, ti preghiamo di comunicarcelo in una risposta a questa email.

Ti saremmo grati se ci aiutassi a preservare il più possibile l'archivio. Pertanto, ti preghiamo di farci sapere se ci sono solo URL o directory specifici di cui sei preoccupato in modo che possiamo lasciare disponibili il resto degli archivi.

Come forse saprai, Internet Archive è una biblioteca digitale senza fini di lucro, che cerca di conservare tramite la Wayback Machine una registrazione storica liberamente accessibile di Internet. Il materiale negli archivi non viene sfruttato da Internet Archive a scopo di lucro.

Il team di Internet Archive

Ho creato wayback-removal-request.htmlcon il seguente contenuto (nemmeno HTML valido):

<p>Hello,</p>

<p>Can you remove my website from the Wayback Machine?</p>

<p>Thanks!</p>
<p>Dimitar</p>

L'ho caricato e risposto alla loro e-mail con l'URL da cui era disponibile la pagina Web e in seguito ho ricevuto la seguente risposta:

Ciao,

Il sito / URL a cui si fa riferimento nella vostra e-mail di seguito è stato inviato per esclusione dalla Wayback Machine all'indirizzo http://www.archive.org (per quanto riguarda tutte le acquisizioni passate):

dimitarnestorov.com

Si prega di attendere fino a un giorno affinché le parti automatizzate del processo eseguano il loro corso e affinché le modifiche abbiano effetto.

Il team di Internet Archive

Quando ho controllato un paio d'ore dopo il mio sito Web è stato rimosso.

— Dimitar Nestorov
fonte