wget - utility da riga di comando per scaricare contenuti in modo non interattivo (può essere chiamato da script, cron job, terminali senza il supporto di X-Windows, ecc.)
Se ho un elenco di URL separati da \n, ci sono delle opzioni a cui posso passare per wgetscaricare tutti gli URL e salvarli nella directory corrente, ma solo se i file non esistono già?
wget ha tale opzione -npche disabilita il recupero dei file da qualsiasi directory padre. Ho bisogno di qualcosa di simile ma un po 'più flessibile. Prendere in considerazione: www.foo.com/bar1/bar2/bar3/index.html Vorrei ottenere tutto ma non "più in alto" (nella gerarchia degli alberi) di bar2(!). Quindi bar2dovrebbe anche essere recuperato ma non …
Abbiamo uno script che scarica la sicurezza delle mod da github che ha recentemente iniziato a fallire. I server eseguono CentOS 6 ma RHEL 6 probabilmente ha lo stesso problema. L'output è: # wget https://github.com/downloads/SpiderLabs/ModSecurity/modsecurity-apache_2.7.1.tar.gz --2014-07-22 18:49:46-- https://github.com/downloads/SpiderLabs/ModSecurity/modsecurity-apache_2.7.1.tar.gz Resolving github.com... 192.30.252.129 Connecting to github.com|192.30.252.129|:443... connected. HTTP request sent, awaiting response... …
Vorrei applicare questa patch così ho copiato il codice che inizia da "Index: src / options.h" e termina con "+ @ item" e l'ho inserito in un nuovo file creato nella wgetcartella del codice sorgente. Quindi ho fatto: $ patch -p0 < name_of_patch (Patch is indented 1 space.) patching file …
Sto wgetingigantendo file enormi (oltre 100 GB) e quindi confrontando il mio md5sum con la somma pubblicata nel repository. Che ci crediate o no, md5sumrichiede una quantità non banale di tempo per essere eseguito su un file di queste dimensioni, quindi mi piacerebbe ottenere la somma in parallelo con il …
Sto scrivendo uno script bash che usa ampiamente wget. Per definire tutti i parametri comuni in un unico posto, li memorizzo su variabili. Ecco un pezzo di codice: useragent='--user-agent="Mozilla/5.0 (Windows NT 6.1; WOW64; rv:27.0) Gecko/20100101 Firefox/27.0"' cookies_file="/tmp/wget-cookies.txt" save_cookies_cmd="--save-cookies $cookies_file --keep-session-cookies" load_cookies_cmd="--load-cookies $cookies_file --keep-session-cookies" function mywget { log "#!!!!!!!!!# WGET #!!!!!!!!!# …
Sto cercando di scaricare un file tramite HTTP da un sito Web utilizzando wget. Quando uso: wget http://abc/geo/download/?acc=GSE48191&format=file Ricevo solo un file chiamato index.html?acc=GSE48191. Quando uso: wget http://abc/geo/download/?acc=GSE48191&format=file -o asd.rpm Ottengo asd.rpm, ma voglio scaricare con il nome reale e non voglio aver cambiato manualmente il nome del file scaricato.
Sono abbastanza nuovo wget. Devo solo sapere come posso impostare la cartella di destinazione in cui vengono salvati i download. Credo di si --directory-prefix. Grazie,
Sto scaricando la pagina di origine HTML di un sito Web utilizzando il cURLcomando. Il problema è che non desidero la maggior parte dei contenuti della pagina. Ho solo bisogno delle prime 100 righe della pagina di origine. C'è un modo per interrompere il download della pagina dopo le prime …
Immagina qualcosa del genere: $ curlsh http://www.example.org > GET /foo/bar/bam ...output here... > POST /thing/pool ... ... result here.... c'è uno strumento che mi permette di farlo?
Voglio scaricare https://example.comusando il wgetcomando, ma dice "protocollo non supportato / non riconosciuto". Ho provato a usare il --secure protocol=''ma che non funziona. Ho scaricato il file tar da GNU wget e ho provato a configurarlo ma non ci sono riuscito. Ecco un esempio di ciò che vedo: bash-2.05$ wget …
Uso il wgetcomando in background in questo modo wget -bq e stampa Continuando in background, pid 31754. Ma quando digito il comando jobs, non vedo il mio lavoro (anche se il download non è finito).
Voglio testare come si comporterebbe il mio sito quando viene sottoposto a spidering. Tuttavia, voglio escludere tutti gli URL contenenti la parola "pagina". Provai: $ wget -r -R "*page*" --spider --no-check-certificate -w 1 http://mysite.com/ Il -Rflag dovrebbe rifiutare il pattern URL contenente la parola "pagina". Solo che sembra non funzionare: …
Sto cercando di capire un metodo molto veloce per determinare le dimensioni di un'immagine. So che potrei wget l'immagine e quindi usare imagemagick per determinare l'altezza e la larghezza dell'immagine. Sono preoccupato che questo potrebbe non essere il modo più veloce di farlo. Mi preoccupo anche di dover installare imagemagick …
Un grande difetto di curlè che sempre più wepage stanno facendo dipingere il loro contenuto principale da una risposta JavaScript AJAX che si verifica dopo la risposta HTTP iniziale. curlnon raccoglie mai questo contenuto post-dipinto. Quindi, per recuperare questi tipi di pagine Web dalla riga di comando, sono stato ridotto …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.