wget: disabilita il recupero .html forzato


0

Quando si esegue un download ricorsivo, si specifica un modello tramite il parametro -R per wget da rifiutare, ma se questo file è un file HTML, wget scarica il file indipendentemente dal fatto che corrisponda o meno al modello.

per esempio.

wget -r -R "*dynamicfile*" example.com

recupera ancora file come example.com/dynamicfile1.html

C'è un modo per impedirlo?

Risposte:


0

Lo fa perché wget usa i file html per sapere dove scansionare successivamente mentre striscia nella pagina web. Vorrei solo lasciare che wget faccia il suo business e poi fare un rm * .html dopo averlo fatto, o qualcosa di simile.

MODIFICARE: Fare un rsync *dynamicfile* /foo/bar in una seconda directory potrebbe essere un modo migliore per filtrare i tuoi file per mantenere solo quelli con il nome corretto (assumendo che tu voglia conservare alcuni dei file html se hanno il nome giusto)


1
Sto provando a filtrare il file perché causa il blocco di wget in un ciclo infinito, quindi non funzionerà.
Mike B

Sembra che il tuo ciclo infinito sia il vero problema che stai cercando di affrontare. Questo è abbastanza diverso che probabilmente dovresti semplicemente pubblicare una nuova domanda chiedendo invece di prevenire loop infiniti con wget.
Jarvin

Dovresti aggiungere un limite di profondità a wget. Ciò assicurerà che non sia un ciclo infinito.
Jarvin
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.