wget: disabilita il recupero .html forzato

Quando si esegue un download ricorsivo, si specifica un modello tramite il parametro -R per wget da rifiutare, ma se questo file è un file HTML, wget scarica il file indipendentemente dal fatto che corrisponda o meno al modello.

per esempio.

wget -r -R "*dynamicfile*" example.com

recupera ancora file come example.com/dynamicfile1.html

C'è un modo per impedirlo?

— Mike B
fonte

Lo fa perché wget usa i file html per sapere dove scansionare successivamente mentre striscia nella pagina web. Vorrei solo lasciare che wget faccia il suo business e poi fare un rm * .html dopo averlo fatto, o qualcosa di simile.

MODIFICARE: Fare un rsync *dynamicfile* /foo/bar in una seconda directory potrebbe essere un modo migliore per filtrare i tuoi file per mantenere solo quelli con il nome corretto (assumendo che tu voglia conservare alcuni dei file html se hanno il nome giusto)

— Jarvin
fonte

Sto provando a filtrare il file perché causa il blocco di wget in un ciclo infinito, quindi non funzionerà.

— Mike B

Sembra che il tuo ciclo infinito sia il vero problema che stai cercando di affrontare. Questo è abbastanza diverso che probabilmente dovresti semplicemente pubblicare una nuova domanda chiedendo invece di prevenire loop infiniti con wget.

— Jarvin

Dovresti aggiungere un limite di profondità a wget. Ciò assicurerà che non sia un ciclo infinito.

— Jarvin