Voglio ottenere tutti i file per un determinato sito Web su archive.org. I motivi potrebbero includere:
- l'autore originale non ha archiviato il proprio sito Web ed è ora offline, voglio crearne una cache pubblica
- Sono l'autore originale di alcuni siti Web e ho perso alcuni contenuti. Voglio recuperarlo
- ...
Come lo faccio ?
Tenendo conto del fatto che la macchina per il wayback di archive.org è molto speciale: i collegamenti alle pagine web non puntano all'archivio stesso, ma a una pagina web che potrebbe non essere più lì. JavaScript viene utilizzato sul lato client per aggiornare i collegamenti, ma un trucco come un wget ricorsivo non funzionerà.
gem install wayback_machine_downloader
. Esegui wayback_machine_downloader con l'URL di base del sito Web che desideri recuperare come parametro:wayback_machine_downloader http://example.com
Ulteriori informazioni: github.com/hartator/wayback_machine_downloader