Come salvare tutte le pagine Web collegate da una


15

Vorrei salvare questa pagina Web e tutte le pagine a cui si collega. e spero di avere lo stesso collegamento tra le pagine Web salvate.

Ci sono alcuni modi invece di aprire e salvare ogni pagina collegata?

Risposte:


12

Puoi fare ciò che desideri con l' utilità della riga di comando di wget . Se gli fornisci l' -ropzione, scaricherà ricorsivamente le pagine Web. Per esempio:

wget -r http://mat.gsia.cmu.edu/orclass/integer/integer.html

Questo scaricherà quella pagina Web e tutto ciò a cui si collega. Puoi anche fare in modo che richieda solo un certo numero di livelli, per fare ciò, devi semplicemente fornire -run numero. Come tale:

wget -r 5 http://mat.gsia.cmu.edu/orclass/integer/integer.html

@Mark: grazie! Ora provo a scaricare mat.gsia.cmu.edu/orclass e le pagine collegate tramite il comando wget -r mat.gsia.cmu.edu/orclass . wget creerà una directory mat.gsia.cmu.edu sotto quella che ho specificato e scaricherà le pagine sotto di essa. Ma i collegamenti tra le pagine scaricate non hanno mat.gsia.cmu.edu nei loro percorsi, quindi diventa un problema e non posso passare da una pagina all'altra facendo clic sui collegamenti. Mi chiedevo perché e come risolvere il problema? Grazie!
Tim

Non penso che puoi scaricare ricorsivamente link esterni, @Tim.
Wuffers,

"Link esterni" significa quelli che non si trovano nel percorso corrente?
Tim

@Tim: Per collegamenti esterni intendo i collegamenti che si riferiscono al di fuori di mat.gsi.cmu.edu
Wuffers,

1
@ Tim: Oh, ok. Scusa per il fraintendimento. Penso che potresti provare a modificare tu stesso i file HTML per verificare e provare a farli funzionare.
Wuffers,

10

Questo thread è vecchio ora, ma altri potrebbero guardarlo. Grazie, Wuffers, per avermi indicato nella giusta direzione ma, per espandere la risposta di Wuffers: una versione moderna di wget ha una serie di opzioni utili per ricorrere a collegamenti e correggerli come collegamenti relativi locali in modo da poter navigare in una copia locale di un sito web. Utilizzare l'opzione -r per ricorrere, l'opzione -k per correggere i collegamenti locali, l'opzione -H per attraversare domini diversi da quello originale, l'opzione -D per limitare i domini in cui si attraversa, l'opzione -l per limitare il profondità di ricorsione e l'opzione -p per assicurarsi che le foglie della traversata abbiano tutto ciò di cui hanno bisogno per essere visualizzate correttamente. Ad esempio, ciò che segue scaricherà una pagina e tutto ciò a cui si collega immediatamente, rendendolo sfogliabile localmente,

wget -r -l 1 -p -k -H -D domain.com,relateddomain.com http://domain.com/page/in/domain

Usando un comando simile a quello sopra, sono stato in grado di scaricare un pezzo di una pagina wiki, con collegamenti esterni, sul mio disco locale senza scaricare megabyte di dati estranei. Ora, quando apro la pagina principale nel mio browser, posso navigare nella struttura senza una connessione a Internet. L'unica irritazione era che la pagina principale era sepolta nelle sottodirectory e che dovevo creare una pagina di reindirizzamento di livello superiore per renderla comoda da visualizzare. Potrebbero essere necessari alcuni tentativi per farlo correttamente. Leggi la pagina man di wget ed sperimenta.


4

Puoi utilizzare un crawler di siti Web come httrack , che è gratuito.

Dal sito web;

[httrack] ti consente di scaricare un sito Web da Internet in una directory locale, costruendo ricorsivamente tutte le directory, ottenendo HTML, immagini e altri file dal server sul tuo computer. HTTrack organizza la relativa struttura di collegamento del sito originale. Basta aprire una pagina del sito Web "speculare" nel browser e puoi navigare il sito da un collegamento all'altro, come se lo stessi visualizzando online.


1
+1 Ottima applicazione! Ma sta catturando anche tutti i file zip collegati, cosa che non volevo. Ma probabilmente avrei dovuto leggere prima le istruzioni!
finlaybob,

Sì, può / seguirà tutti i collegamenti così scaricherà i file. (@Finlaybob sei a conoscenza del fatto che la homepage elencata nel tuo profilo è stata hackerata?)
RJFalconer

Io non ero! Ci penserò - grazie per avermelo fatto notare!
finlaybob
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.