wget ha tale opzione -np
che disabilita il recupero dei file da qualsiasi directory padre. Ho bisogno di qualcosa di simile ma un po 'più flessibile. Prendere in considerazione:
www.foo.com/bar1/bar2/bar3/index.html
Vorrei ottenere tutto ma non "più in alto" (nella gerarchia degli alberi) di bar2
(!). Quindi bar2
dovrebbe anche essere recuperato ma non bar1
.
C'è un modo per rendere wget più selettivo?
Sfondo: sto cercando di eseguire il mirroring di un sito Web, con una struttura logica simile: punto di partenza, quindi su, poi giù. Se esiste un altro strumento wget
, più adatto a tale layout, per favore fatemelo sapere pure.
Aggiornare
O invece di specificare un approfondimento possibile, forse qualcosa del tipo "nessun genitore, a meno che non corrispondano a questo o quell'URL".
Aggiornamento 2
C'è una struttura sul server, giusto? Puoi visualizzarlo come un albero. Quindi normalmente con "--no-parent" inizi da un punto A e scendi solo verso il basso.
Il mio desiderio, è la capacità di salire - espresso dicendo che è consentito salire X nodi, o (che è equivalente al 100%) che è consentito salire fino al nodo B (dove la distanza BA = X).
In tutti i casi, le regole per scendere rimangono come definite dagli utenti (ad esempio, scendono solo per livelli Y).
Come conservarlo? In realtà non è davvero la domanda: wget
per impostazione predefinita ricrea la struttura del server, qui non c'è nulla di cui avere paura o non è necessario correggere nulla. Quindi, in 2 parole - come al solito.
Aggiornamento 3
Struttura della directory qui sotto - supponiamo che in ogni directory ci sia un solo file, in R - R.html e così via. Questo è ovviamente semplificato perché puoi avere più di una pagina.
R
/ \
B G
/ \
C F
/ \
A D
/
E
A (A.html) è il mio punto di partenza, X = 2 (quindi B è il nodo di livello più alto che vorrei recuperare). In questo esempio particolare questo significa recuperare tutte le pagine tranne R.html e G.html. A.html è chiamato "punto di partenza" perché io devo cominciare da esso, non dalla B.
Aggiornamento 4
La denominazione viene utilizzata dall'aggiornamento 3.
wget OPZIONI www.foo.com/B/C/A/A.html
La domanda è quali sono le opzioni per ottenere tutte le pagine dalla directory B e successive (sapendo che devi iniziare da A.html).
bar2
directory e tutto il suo contenuto. In caso contrario, chiarire.
bar2
andare a prendere ma nobar1
? Dovebar2
risiederà? Cosa succede se due o più directory che non si desidera abbiano sottodirici identici, il loro contenuto dovrebbe essere unito? È quasi certamente più semplice ottenere l'intero sito dannato e quindi potare / spostare le cose come desideri.