Scarica TUTTE le cartelle, le sottocartelle e i file utilizzando Wget


20

Ho usato Wget e ho riscontrato un problema. Ho un sito, che ha diverse cartelle e sottocartelle all'interno del sito. Devo scaricare tutti i contenuti all'interno di ogni cartella e sottocartella. Ho provato diversi metodi usando Wget, e quando controllo il completamento, tutto ciò che posso vedere nelle cartelle è un file "indice". Posso fare clic sul file indice e mi porterà ai file, ma ho bisogno dei file effettivi.

qualcuno ha un comando per Wget che ho trascurato, o c'è un altro programma che potrei usare per ottenere tutte queste informazioni?

esempio di sito:

www.mysite.com/Pictures/ all'interno di Pictures DIr, ci sono diverse cartelle .....

www.mysite.com/Pictures/Accounting/

www.mysite.com/Pictures/Managers/North America / California / JoeUser.jpg

Ho bisogno di tutti i file, cartelle, ecc .....


1
Hai letto la documentazione per wget, in particolare per l' utilizzo ricorsivo ?
Mosè,

C'è anche un articolo nella documentazione qui che sembra rilevante.
Mosè,

Risposte:


37

Voglio presumere che tu non abbia provato questo:

wget -r --no-parent http://www.mysite.com/Pictures/

o per recuperare il contenuto, senza scaricare i file "index.html":

wget -r --no-parent --reject "index.html *" http://www.mysite.com/Pictures/

Riferimento: usare wget per recuperare ricorsivamente una directory con file arbitrari in essa contenuti


1
Grazie, ho eseguito quel comando più volte, ma non ho lasciato che il comando finisse fino alla fine. Sono stato rintracciato lateralmente, ho lasciato terminare il comando e ha copiato TUTTE le cartelle, quindi è tornato indietro e ha copiato TUTTI i file nella cartella.
Horrid Henry,

va solo a mostrarti, se avessi avuto pazienza, l'avrei fatto 2 settimane fa .... LOL. :) grazie ancora.
Horrid Henry,

@Horrid Henry, Congratulazioni!
Felix Imafidon,

Uso il comando simile ma ottengo solo un file index.html!
shenkwen,

20

Io uso wget -rkpN -e robots=off http://www.example.com/

-r significa ricorsivamente

-ksignifica convertire i collegamenti. Quindi i collegamenti sulla pagina web saranno localhost invece di example.com/bla

-p significa ottenere tutte le risorse della pagina Web in modo da ottenere immagini e file javascript per far funzionare correttamente il sito Web.

-N consiste nel recuperare i timestamp, quindi se i file locali sono più recenti dei file sul sito Web remoto, saltarli.

-eè un'opzione flag che deve essere lì per robots=offfunzionare.

robots=off significa ignorare il file dei robot.

Ho anche avuto -cin questo comando quindi se la loro connessione è caduta se continuerebbe da dove era stata interrotta da quando ho eseguito nuovamente il comando. Ho pensato che -Nsarebbe andato bene con-c


Potresti aggiungere un paio di frasi alla tua risposta per spiegare cosa fanno queste impostazioni dei parametri?
Fixer 1234

spiacente. sicuramente li aggiungerò ora
Tim Jonas il

Ho aggiornato la mia risposta
Tim Jonas il

Grazie. Quindi -c dovrebbe far parte del tuo esempio di comando o aggiunto facoltativamente dopo un download incompleto? Inoltre, -e è in modo che il comando abbia la precedenza su qualsiasi cosa possa essere in .wgetrc? Ed è un refuso per -r (ricorsivo vs. reclusivo)?
Fixer 1234

Si, è corretto. Sì -eeseguirà il comando come se facesse parte di .wgetrc. L'ho aggiunto lì perché robots=offnon sembrava funzionare senza di esso.
Tim Jonas il

1

wget -m -A * -pk -e robots = off www.mysite.com/ questo scaricherà tutti i tipi di file localmente e li
indicherà dal file html e ignorerà il file dei robot

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.