Ci sono davvero 2 problemi qui:
- Il
robots.txt
tuo sito non consentirà (bloccherà) il ritorno dalla scansione del tuo sito.
- Wayback eseguirà la scansione del tuo sito.
Per il punto 1:
come altri hanno già detto, la voce corretta per robots.txt è:
User-agent: ia_archiver
Disallow:
Tieni presente che potrebbe volerci un po 'di tempo (forse un bel po' di tempo) affinché Wayback rilevi eventuali modifiche apportate a robots.txt.
Per verificare se robots.txt
sul tuo sito consentirà a Wayback di eseguire la scansione del tuo sito:
- Vai a questo URL: https://archive.org/web/
- Nella casella nella parte superiore della pagina, inserisci l'URL di una pagina sul tuo sito e fai clic sul
"Browse History"
pulsante.
- Oppure, nella casella sotto "Salva pagina ora" (attualmente in basso a destra), inserisci l'URL di una pagina sul tuo sito e fai clic sul
"Save Page"
pulsante.
A questo punto, dovresti vedere 1 di 3 cose:
- Verrà visualizzato un messaggio di errore che indica che Wayback non può accedere alle pagine di quel sito a causa di "robots.txt".
- Vedrai il "calendario" dei punti di salvataggio storici per la pagina sul tuo sito. In questo caso, sai che Wayback NON è bloccato dalla scansione del tuo sito.
- In alternativa, vedrai un messaggio che indica che Wayback non ha un archivio di quella pagina e un'offerta per fare clic su un collegamento per aggiungere la pagina a Wayback. Anche in questo caso, sai che Wayback NON è bloccato dalla scansione del tuo sito.
Ora, per il punto 2:
Will Wayback scansione del tuo sito?
Solo perché consenti a Wayback di eseguire la scansione del tuo sito, non significa che essi (mai) eseguiranno la scansione del tuo sito.
Secondo le FAQ di Wayback (enfasi aggiunta):
Gran parte dei nostri dati web archiviati provengono dalle nostre ricerche per indicizzazione o dalle ricerche per indicizzazione di Alexa Internet. Nessuna organizzazione ha un "crawl mio sito ora!" processo di invio. Le ricerche per indicizzazione di Internet Archive tendono a trovare siti ben collegati da altri siti . Il modo migliore per assicurarsi che troviamo il tuo sito web è assicurarsi che sia incluso nelle directory online e che siti simili / correlati rimandino a te.
Alexa Internet utilizza i propri metodi per scoprire i siti da sottoporre a scansione. Potrebbe essere utile installare la barra degli strumenti Alexa gratuita e visitare il sito che desideri sottoporre a scansione per assicurarti che ne siano a conoscenza.
Indipendentemente da chi esegue la scansione del sito, è necessario assicurarsi che le regole "robots.txt" del sito e le direttive dei robot META in-page non indichino ai crawler di evitare il sito.
Aggiornamento: 09 maggio 2017
Altri hanno lasciato commenti / risposte indicando che Archive.org non onora più robots.txt. Forse questo è un "work-in-progress" e alla fine sarà il caso, ma non ho ancora visto questo nuovo comportamento.
Il caso sembra provenire da questo articolo: Robots.txt: ROBOTS.TXT È UNA NOTA SUICIDA di archiveteam.org
. Mentre quella pagina ha poco o niente di buono da dire su "Robots.txt", non menziona da nessuna parte che Archive.org non onorerà più robots.txt.
Nota anche: l'articolo è ospitato su archiveteam.org
, il che sicuramente non lo è archive.org
, e non sono sicuro che ci sia una relazione (ufficiale) tra archive.org
e archiveteam.org
.
In effetti, questa pagina su Archive Team , sembra dichiarare una distinzione tra e (enfasi aggiunta):archive.org
archive.org
archiveteam.org
Costituito nel 2009, il Team Archive (da non confondere con il Team Archive-It Archive.org ) è un collettivo archivista disonesto dedicato al salvataggio di copie di siti Web in rapido declino o cancellati per motivi di storia e patrimonio digitale. ...
In ogni caso, ho deciso di provarlo e ho scoperto che, almeno in questo momento, Archive.org STILL onora robots.txt:
- Ho trovato un oggetto casuale su eBay: Articolo n .: 131795294232
- Fai clic per visualizzare gli articoli venduti:
- Si apre la pagina "Articoli venduti": http://offer.ebay.com/ws/eBayISAPI.dll?ViewBidsLogin&item=131795294232 Copia il link negli Appunti.
- Vai a web.archive.org e incolla il link da eBay.
- Vedrai che
archive.org
indica che la "Pagina non può essere visualizzata a causa di robots.txt".
Quindi, in questo momento, non sono convinto, ma mi piacerebbe essere smentito ... sarebbe bello se fosse vero.