Fai in modo che wget non scarichi file di dimensioni superiori a X.


11

Va bene, mi arrendo. Come posso limitare le dimensioni dei file scaricati, ad esempio se non voglio file di dimensioni superiori a 2 MB?

Risposte:


6

L'unica opzione di limitazione che conosco quale wgetsupporta è il -Qcambio di quota. Questo non è ciò che desideri, poiché si fermerà dopo un limite combinato di tutti i file che hai scaricato, non individualmente. Anche il piping di ciascun collegamento ad esso separatamente con l' -Qinterruttore non funzionerà, come spiegato nella pagina man .

Non so quale ambiente stai utilizzando, ma il crawler supporta le limitazioni della dimensione dei file con byte di lunghezza massima e funziona sulla piattaforma Java.

dal loro manuale utente :

  • max-length-byte

Numero massimo di byte da scaricare per documento. Troncerà il file una volta raggiunto questo limite.

Per impostazione predefinita, questo valore è impostato su un valore estremamente elevato (nell'intervallo di exabyte) che non verrà mai raggiunto in pratica.


Hmmm. Va bene. Ciò ha ripetuto molto di ciò che ho scoperto, ma una buona risposta comunque. Tuttavia, non sapevo che Heritrix troncasse i file invece di saltarli.
Nathaniel,

3

Se si tratta di " scaricare 2 MB max " anziché di " scaricare file con max 2 MB ", è possibile limitare l'output salvato su disco.

wget -O - $url |head -c 1024(con un facoltativo > $SaveAsFile) -> salva il primo KB e il resto viene troncato.

(abbastanza per vedere un " OK: $ Message ", non uccidere il mio / tmp con tonnellate di messaggi di errore dal telecomando ;-))


Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.