Come archiviare l'intero sito Web?


Risposte:


12

Dal momento che Wayback Machine non fornisce tale funzionalità, ho trovato una soluzione alternativa.

  1. Innanzitutto, rispecchia il sito Web utilizzando wget, ad es

    wget -m https://example.com/
    
  2. Quindi utilizzare curlper archiviare tutte le pagine una per una che hai scaricato.

    find . -name "*.html" -exec curl -v "https://web.archive.org/save/https://{}" ';'
    

    Nota: È possibile modificare .htmla .php, o includere certo tipo di file.


Se il sito non utilizza estensioni (come html o php - come SE è configurato), come si adatta il comando?
db

2
È possibile modificare -name "*.html"a -type fincludere tutti i file.
Kenorb,

Come funziona con i parametri della query?
Mithical

6

Se si desidera archiviare un piccolo sito Web, il team di archivio mantiene ArchiveBot , un bot IRC in cui è possibile richiedere la scansione di siti Web. Il team di Archive invierà quindi le pagine sottoposte a scansione alla Wayback Machine di Internet Archive.


Questo è incredibilmente utile.
Guy

1

La Wayback Machine non offre un modo per inviare un intero sito, solo una singola pagina come hai già trovato. Questo è toccato in un paio di punti delle loro FAQ di Wayback Machine :

Posso aggiungere pagine alla Wayback Machine?

Su https://archive.org/web è possibile utilizzare la funzione "Salva pagina ora" per salvare una pagina specifica una volta. Questo al momento non aggiunge l'URL a nessuna scansione futura né salva più di quella pagina. Non salva più pagine, directory o interi siti .

e

Come posso includere il mio sito nella Wayback Machine?

Gran parte dei nostri dati web archiviati provengono dalle nostre ricerche per indicizzazione o dalle ricerche per indicizzazione di Alexa Internet. Nessuna organizzazione ha un "crawl mio sito ora!" processo di invio . Le ricerche per indicizzazione di Internet Archive tendono a trovare siti ben collegati da altri siti. Il modo migliore per assicurarsi che troviamo il tuo sito Web è assicurarsi che sia incluso nelle directory online e che siti simili / correlati rimandino a te.


1
Questa non è una risposta alla domanda. Solo perché non esiste un modo ufficiale per farlo, l'attività non è impossibile da eseguire. In effetti, dovrebbe essere abbastanza facile creare uno script che aggiunge ricorsivamente collegamenti.
db

@db, la risposta di Kenorb sembra essere ciò che stavi chiedendo. Per inciso, questa risposta mi è più utile in questo momento, poiché volevo solo che The WaybackMachine catturasse una pagina per me ora.
cp.engr,

1

Questo articolo su archive.org suggerisce anche un servizio a pagamento che eseguirà la scansione per te tutte le volte che vuoi:

  1. Iscriviti per un account Archive-It

Archive-It è un servizio in abbonamento fornito da Internet Archive che ti consente di eseguire i tuoi progetti di scansione senza alcuna competenza tecnica. Dicci cosa eseguire la ricerca per indicizzazione e con quale frequenza eseguire la ricerca per indicizzazione, eseguiamo la ricerca per indicizzazione e inseriamo i risultati nella Wayback Machine.

Questo probabilmente non è ciò che stai cercando, ma per alcune aziende questo servizio potrebbe essere utile. Presumo che aiuti a finanziare archive.org, che altrimenti è gratuito.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.