Controllo su Internet Archive oltre a “Disallow /”?


13

Esistono meccanismi per controllare ciò che archivia Internet Archive su un sito? So di non consentire tutte le pagine che potrei aggiungere :

User-agent: ia_archiver
Disallow: /
  1. Posso dire al bot che voglio che eseguano la scansione del mio sito una volta al mese o una volta all'anno?

  2. Ho un sito / pagine che non vengono / non vengono archiviate correttamente a causa di risorse non raccolte. Esiste un modo per dire al bot di Internet Archive quali risorse sono necessarie per accedere al sito?


Sono anche molto interessato alle risposte a questo. +1 :)
Tim Post

Risposte:


8

Nota : questa risposta è sempre più obsoleta.

Il principale collaboratore della raccolta web di Internet Archive è stato Alexa Internet. Il materiale che Alexa striscia per i suoi scopi è stato donato all'IA alcuni mesi dopo. L'aggiunta della regola di non consentire menzionata nella domanda non influisce su tali ricerche per indicizzazione, ma il Wayback li onorerà "retroattivamente" (negando l'accesso, il materiale sarà ancora nell'archivio - dovresti escludere il robot di Alexa se vuoi davvero tenere fuori il tuo materiale di Internet Archive).

Potrebbero esserci dei modi per influenzare le ricerche per indicizzazione di Alexa, ma non ne ho familiarità.

Da quando IA ha sviluppato il suo crawler (Heritrix), hanno iniziato a fare i loro crawl, ma quelli tendono ad essere crawl mirati (fanno crawl elettorali per la Library of Congress e hanno fatto crawl nazionali per Francia e Australia, ecc.). Non si impegnano nel tipo di ricerche per indicizzazione su scala mondiale sostenute da Google e Alexa. La più grande ricerca per indicizzazione di IA è stata un progetto speciale per la scansione di 2 miliardi di pagine.

Poiché queste ricerche per indicizzazione vengono gestite in base a pianificazioni derivanti da fattori specifici del progetto, non è possibile influire sulla frequenza con cui visitano il sito o se visitano il sito.

L'unico modo per influire direttamente su come e quando IA esegue la scansione del tuo sito è utilizzare il servizio Archive-It . Tale servizio consente di specificare ricerche per indicizzazione personalizzate. I dati risultanti verranno (eventualmente) incorporati nella raccolta web di IA. Questo è comunque un pagamento servizio di abbonamento.


3
Il tuo commento su IA mentre eseguiva le proprie ricerche per indicizzazione era vero nel 2011 e non è più valido per il 2016: ora eseguiamo molte ricerche per conto nostro.
Greg Lindahl,

@GregLindahl sei il benvenuto ad aggiungere una risposta aggiornata a questa domanda
Stephen Ostermiller

2

La maggior parte dei motori di ricerca supporta la direttiva "Ritardo scansione", ma non so se IA lo faccia. Puoi provarlo però:

User-agent: ia_archiver
Crawl-delay: 3600

Ciò limiterebbe il ritardo tra le richieste a 3600 secondi (ovvero 1 ora) o ~ 700 richieste al mese.

Non credo che il numero 2 sia possibile: il bot IA prende le risorse come e quando lo ritiene opportuno. Potrebbe avere un limite di dimensione del file per evitare di usare troppa memoria.


@Kris: l'impostazione di un ritardo di scansione dovrebbe farlo tramite proxy. Se hai 30 pagine e dici al crawler di colpire solo una volta al giorno, è probabile che ogni pagina venga aggiornata approssimativamente ogni 30 giorni. (Non una garanzia, ovviamente.)
DisgruntledGoat

In teoria sì, tuttavia, se stai eseguendo la scansione degli archivi non obbediresti mai a una regola del genere. La scansione di un sito un documento al giorno significa che non è possibile ottenere una buona acquisizione del sito in un determinato momento. Se questo attributo dovesse essere rispettato sarebbe con un limite massimo di 1-5 minuti in qualsiasi scansione dell'archivio .
Kris,

Ah OK, capisco il tuo punto.
DisgruntledGoat

Ho appena visto Heritrix 3 recentemente rilasciato e vedo che hanno aggiunto la gestione della direttiva del ritardo di scansione, ma per impostazione predefinita è rispettando solo un massimo di 300 secondi (5 minuti).
Kris,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.