Come scaricare un sito Web da Archive.org Wayback Machine?


84

Voglio ottenere tutti i file per un determinato sito Web su archive.org. I motivi potrebbero includere:

  • l'autore originale non ha archiviato il proprio sito Web ed è ora offline, voglio crearne una cache pubblica
  • Sono l'autore originale di alcuni siti Web e ho perso alcuni contenuti. Voglio recuperarlo
  • ...

Come lo faccio ?

Tenendo conto del fatto che la macchina per il wayback di archive.org è molto speciale: i collegamenti alle pagine web non puntano all'archivio stesso, ma a una pagina web che potrebbe non essere più lì. JavaScript viene utilizzato sul lato client per aggiornare i collegamenti, ma un trucco come un wget ricorsivo non funzionerà.


14
Sono arrivato attraverso lo stesso problema e ho codificato una gemma. Per installare: gem install wayback_machine_downloader. Esegui wayback_machine_downloader con l'URL di base del sito Web che desideri recuperare come parametro: wayback_machine_downloader http://example.comUlteriori informazioni: github.com/hartator/wayback_machine_downloader
Hartator,

3
Un aiuto passo passo per gli utenti di Windows (Win 8.1 64 bit per me) nuovo di Ruby, ecco cosa ho fatto per farlo funzionare: 1) Ho installato rubyinstaller.org/downloads quindi ho eseguito "rubyinstaller-2.2.3-x64 .exe "2) scaricato il file zip github.com/hartator/wayback-machine-downloader/archive/… 3) decomprimere lo zip nel mio computer 4) cercare nel menu di avvio di Windows" Avvia prompt dei comandi con Ruby "(essere continua)
Erb,

3
5) segui le istruzioni di github.com/hartator/wayback_machine_downloader (e; .g: copia incolla questo "gem install wayback_machine_downloader" nel prompt. Premi Invio e installerà il programma ... quindi segui le linee guida "Usage"). 6) una volta acquisito il tuo sito web troverai i file in C: \ Users \ YOURusername \ siti Web
Erb

Risposte:


64

Ho provato diversi modi per scaricare un sito e alla fine ho trovato il downloader della macchina di ritorno - che è stato menzionato da Hartator in precedenza (quindi tutti i crediti vanno a lui, per favore), ma semplicemente non ho notato il suo commento alla domanda. Per risparmiare tempo, ho deciso di aggiungere la gemma wayback_machine_downloader come risposta separata qui.

Il sito all'indirizzo http://www.archiveteam.org/index.php?title=Restoring elenca questi modi per scaricare da archive.org:

  • Wayback Machine Downloader , piccolo strumento in Ruby per scaricare qualsiasi sito Web dalla Wayback Machine. Gratuito e open-source. La mia scelta!
  • Warrick - Il sito principale sembra inattivo.
  • Wayback downloader , un servizio che scaricherà il tuo sito dalla Wayback Machine e aggiungerà anche un plug-in per Wordpress. Non gratis.

ho anche scritto un "downloader di ritorno", in php, scaricando le risorse, regolando i collegamenti, ecc: gist.github.com/divinity76/85c01de416c541578342580997fa6acf
hanshenrik,

@ComicSans, Nella pagina che hai collegato, che cos'è un team di archiviazione afferrare ??
Pacerier

1
Ottobre 2018, Wayback Machine Downloader funziona ancora.
Quel ragazzo brasiliano il

@Pacerier significa (set di) file WARC prodotti da Archive Team (e di solito inseriti nella macchina del passato di Internet Archive), vedi archive.org/details/archiveteam
Nemo

13

Questo può essere fatto usando uno script di shell bash combinato conwget .

L'idea è di utilizzare alcune delle funzionalità URL della macchina di ritorno:

  • http://web.archive.org/web/*/http://domain/*elencherà tutte le pagine salvate in http://domain/modo ricorsivo. Può essere utilizzato per costruire un indice di pagine da scaricare ed evitare l'euristica per rilevare i collegamenti nelle pagine Web. Per ogni collegamento, c'è anche la data della prima versione e dell'ultima versione.
  • http://web.archive.org/web/YYYYMMDDhhmmss*/http://domain/pageelencherà tutte le versioni http://domain/pagedell'anno YYYY. All'interno di quella pagina, è possibile trovare collegamenti specifici alle versioni (con il timestamp esatto)
  • http://web.archive.org/web/YYYYMMDDhhmmssid_/http://domain/pagerestituirà la pagina non modificata http://domain/pagenel timestamp indicato. Notare il token id_ .

Queste sono le basi per creare uno script per scaricare tutto da un determinato dominio.


7
Dovresti davvero usare l'API invece archive.org/help/wayback_api.php Le pagine di aiuto di Wikipedia sono destinate agli editori, non al grande pubblico. Quindi quella pagina è focalizzata sull'interfaccia grafica, che è sia sostituita che inadeguata per questo compito.
Nemo,

Probabilmente sarebbe più facile dire semplicemente prendere l'URL (come http://web.archive.org/web/19981202230410/http://www.google.com/) e aggiungere id_alla fine dei "numeri di data". Quindi, otterresti qualcosa del genere http://web.archive.org/web/19981202230410id_/http://www.google.com/.
Hayak

1
Una sceneggiatura in pitone può essere trovata anche qui: gist.github.com/ingamedeo/…
Amedeo Baragiola,

4

Esiste uno strumento appositamente progettato per questo scopo, Warrick: https://code.google.com/p/warrick/

Si basa sul protocollo Memento.


3
Per quanto sono riuscito a usarlo (a maggio 2017), recupera solo ciò che contiene archive.is e praticamente ignora ciò che è su archive.org; tenta anche di ottenere documenti e immagini dalle cache di Google / Yahoo ma fallisce completamente. Warrick è stato clonato più volte su GitHub da quando Google Code è stato chiuso, forse ci sono alcune versioni migliori lì.
Gwyneth Llewelyn,

0

Puoi farlo facilmente con wget.

wget -rc --accept-regex '.*ROOT.*' START

Dove si ROOTtrova l'URL principale del sito Web ed STARTè l'URL iniziale. Per esempio:

wget -rc --accept-regex '.*http://www.math.niu.edu/~rusin/known-math/.*' http://web.archive.org/web/20150415082949fw_/http://www.math.niu.edu/~rusin/known-math/

Si noti che è necessario ignorare il frame di wrapping dell'archivio Web per l' STARTURL. Nella maggior parte dei browser, è possibile fare clic con il pulsante destro del mouse sulla pagina e selezionare "Mostra solo questo frame".

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.