Alternative a wget


13

Ho un sito su un server che è fondamentalmente un mucchio di pagine HTML, immagini e suoni.

Ho perso la mia password per quel server e devo prendere tutto ciò che è memorizzato lì. Posso andare pagina per pagina e salvare tutto ma il sito ha più di 100 pagine.

Sto usando OSX. Ho provato a usare wgetma penso che il server lo stia bloccando.

C'è qualche alternativa che posso usare per prendere quel contenuto?


Se hai accesso fisico al server, avvia in modalità utente singolo e recupera la tua password. debuntu.org/…
spuder

Risposte:


15

Se il server sta bloccando wget, è molto probabile che lo faccia sulla base del campo "User-agent:" dell'intestazione http, poiché questo è l'unico modo per farlo sapere in primo luogo. Potrebbe anche bloccare il tuo IP, nel qual caso l'utilizzo di software diversi non ti aiuterà, o qualche schema che identifica l'automazione in base alla rapidità di una serie di richieste (poiché le persone reali non navigano su 100 pagine in 3,2 secondi) . Non ho sentito parlare di nessuno, ma è possibile.

Inoltre non ho sentito parlare di un modo per rallentare wget, ma c'è un modo per falsificare il campo user-agent:

wget --user-agent=""

Secondo la pagina man, "User-agent:" verrà eliminato completamente, poiché non è obbligatorio. Se al server non piace, prova --user-agent="Mozilla/5.0"quale dovrebbe essere abbastanza buono.

Certo, sarebbe di aiuto se spiegassi meglio perché "pensi che il server lo stia bloccando". Wget dice qualcosa o semplicemente va in timeout?


o si! Grazie. L'ho perso sull'aiuto di wget. Ora funziona !!!!!!!!!!!!!!!!!!!!!!!!
SpaceDog,

5
wgetha una serie di opzioni per attendere tra le query, limitare la tariffa o l'importo scaricato. Controlla la infopagina per i dettagli.
Stéphane Chazelas,

6

Di solito lo utilizzo httrackper il download / mirroring di contenuti Web da un sito.

$ httrack http://2011.example.com -K -w -O . -%v --robots=0 -c1 %e0

Dopo l'esecuzione, ti rimane una struttura di directory locale e navigabile. Per esempio:

$ ls -l
total 304
-rw-r--r--  1 saml saml   4243 Aug 17 10:20 backblue.gif
-rw-r--r--  1 saml saml    828 Aug 17 10:20 fade.gif
drwx------  3 saml saml   4096 Aug 17 10:20 hts-cache
-rw-rw-r--  1 saml saml    233 Aug 17 10:20 hts-in_progress.lock
-rw-rw-r--  1 saml saml   1517 Aug 17 10:20 hts-log.txt
-rw-------  1 saml saml 271920 Aug 17 10:22 hts-nohup.out
-rw-r--r--  1 saml saml   5141 Aug 17 10:20 index.html
drwxr-xr-x 10 saml saml   4096 Aug 17 10:21 2011.example.com

Durante il download vedrai il seguente tipo di output:

Bytes saved:    21,89KiB           Links scanned:   12/45 (+4)
Time:   2s                         Files written:   4
Transfer rate:  2,65KiB/s (2,65KiB/s)  Files updated:   1
Active connections:     1          Errors:  7

Current job: parsing HTML file (57%)
 request -  2011.example.com/cgi-bin/hostnames.pl   0B /    8,00KiB

Può essere in background e / o interrotto e successivamente ripreso. Questa è solo la punta dell'iceberg in termini di funzionalità. Esiste anche una GUI sia per l'impostazione di un download che per il monitoraggio man mano che procede.

Esiste un'ampia documentazione sul httracksito Web e tramite Google.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.