Come posso scaricare un intero sito Web?


81

Voglio scaricare un intero sito Web (con siti secondari). C'è qualche strumento per quello?


1
che cosa stai cercando di ottenere esattamente? il titolo e il contenuto della domanda non sono correlati e il contenuto non è specifico.
RolandiXor

NB, solo i seguenti collegamenti (ad esempio, utilizzando --convert-linksin wget) non riveleranno i siti che vengono rivelati solo inviando un modulo, tra le altre cose.
Steven

Risposte:


140

Prova l'esempio 10 da qui :

wget --mirror -p --convert-links -P ./LOCAL-DIR WEBSITE-URL
  • –mirror : attiva le opzioni adatte al mirroring.

  • -p : scarica tutti i file necessari per visualizzare correttamente una determinata pagina HTML.

  • --convert-links : dopo il download, converti i collegamenti nel documento per la visualizzazione locale.

  • -P ./LOCAL-DIR : salva tutti i file e le directory nella directory specificata.

c'è un modo per scaricare solo determinate pagine (ad esempio, diverse parti di un articolo che si sviluppa su più documenti HTML)?
don.joey,

@Privato Sì, anche se probabilmente è più facile usare Python o qualcosa per ottenere le pagine (a seconda del layout / url). Se l'URL delle pagine differisce di un numero in costante aumento o hai un elenco di pagine, probabilmente potresti usare wget in uno script bash.
Vreality

2
Potresti considerare di usare l' --wait=secondsargomento se vuoi essere più amichevole con il sito; attenderà il numero specificato di secondi tra i recuperi.
belacqua,

quanto sopra funziona, ma per joomla l'URL con parametri crea file che non sono collegati localmente. Quello che ha funzionato per me è wget -m -k -K -E tuo.dominio.com da qui: vaasa.hacklab.fi/2013/11/28/…
M.Hefny

1
Anche --no-parentper "non risalire mai alla directory principale" preso da qui .
Daniel,

38

HTTrack per Linux copia siti Web in modalità offline

httrack è lo strumento che stai cercando.

HTTrack ti consente di scaricare un sito Web da Internet in una directory locale, creando ricorsivamente tutte le directory, ottenendo HTML, immagini e altri file dal server sul tuo computer. HTTrack organizza la relativa struttura di collegamento del sito originale.


7

Con wgetè possibile scaricare un intero sito Web, è necessario utilizzare -rswitch per un download ricorsivo . Per esempio,

wget -r http://www.google.com

6

WEBHTTRACK COPIA SITO WEB è uno strumento utile per scaricare un intero sito Web sul disco rigido per la navigazione offline. Avviare Ubuntu Software Center e digitare "webhttrack website copier" senza virgolette nella casella di ricerca. selezionalo e scaricalo dal centro software sul tuo sistema. avvia webHTTrack dal menu di avvio o dal menu di avvio, da lì puoi iniziare a goderti questo fantastico strumento per i download del tuo sito


3

Non conosco i sottodomini, ovvero i siti secondari, ma wget può essere utilizzato per acquisire un sito completo. Dai un'occhiata a questa domanda da superutente . Dice che è possibile utilizzare -D domain1.com,domain2.comper scaricare diversi domini in un singolo script. Penso che puoi usare questa opzione per scaricare sottodomini, ad es-D site1.somesite.com,site2.somesite.com


1

Uso Burp : lo strumento ragno è molto più intelligente di wget e può essere configurato per evitare sezioni se necessario. La stessa Burp Suite è un potente set di strumenti per facilitare i test, ma lo strumento Spider è molto efficace.


1
Burp non è solo Windows? Anche l'accordo di licenza a fonte chiusa per Burp è piuttosto pesante. Per non parlare del prezzo di $ 299,00:
Kat Amsterdam

dalla licenza: AVVERTENZA: BURP SUITE FREE EDITION È PROGETTATA PER TESTARE FLUSSI DI SICUREZZA E PU DO EFFETTUARE DANNI AI SISTEMI OBIETTIVI DOVUTI ALLA NATURA DELLA SUA FUNZIONALITÀ. LA PROVA DEI FLUSSI DI SICUREZZA COINVOLTA INEROSAMENTE L'INTERAZIONE CON GLI OBIETTIVI IN MODI NON STANDARD CHE POSSONO CAUSARE PROBLEMI IN ALCUNI OBIETTIVI VULNERABILI. È NECESSARIO PRENDERSI CURA DURANTE L'UTILIZZO DEL SOFTWARE, DEVI LEGGERE TUTTA LA DOCUMENTAZIONE PRIMA DELL'USO, DEVI ESEGUIRE IL BACKUP DEI SISTEMI TARGET PRIMA DELL'USO E NON DOVETE USARE IL SOFTWARE SUI SISTEMI DI PRODUZIONE O ALTRI SISTEMI PER CUI IL RISCHIO DI DANNI NON È ACCETTATO DA TE .
Kat Amsterdam,

Per quello che fa, il prezzo è incredibilmente economico - consiglierei di acquistarlo per una vasta gamma di test di sicurezza. Ed è molto facile configurarlo per testare esattamente come vuoi - in alcuni casi più sicuro di AppScan :-)
Rory Alsop

1
@KatAmsterdam Per quanto riguarda in particolare la domanda di compatibilità: Secondo Wikipedia , Burp Suite è un'applicazione Java, quindi dovrebbe funzionare bene su Ubuntu.
Eliah Kagan,

Kat: funziona perfettamente su vari tipi di Linux. L'avviso sulla licenza è lo stesso di qualsiasi strumento che è possibile utilizzare per le valutazioni di sicurezza.
Rory Alsop,

1

È possibile scaricare l'intero sito Web Command:

wget -r -l 0 website

Esempio :

wget -r -l 0 http://google.com

Puoi spiegare come funziona questo comando? Cosa fa?
Kaz Wolfe,

0

Se la velocità è un problema (e il benessere del server non lo è), puoi provare puf , che funziona come wget ma può scaricare diverse pagine in parallelo. Non è, tuttavia, un prodotto finito, non mantenuto e orribilmente privo di documenti. Tuttavia, per scaricare un sito Web con molti file di piccole dimensioni, questa potrebbe essere una buona opzione.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.