wget ha tale opzione -npche disabilita il recupero dei file da qualsiasi directory padre. Ho bisogno di qualcosa di simile ma un po 'più flessibile. Prendere in considerazione:
www.foo.com/bar1/bar2/bar3/index.html
Vorrei ottenere tutto ma non "più in alto" (nella gerarchia degli alberi) di bar2(!). Quindi bar2dovrebbe anche essere recuperato ma non bar1.
C'è un modo per rendere wget più selettivo?
Sfondo: sto cercando di eseguire il mirroring di un sito Web, con una struttura logica simile: punto di partenza, quindi su, poi giù. Se esiste un altro strumento wget, più adatto a tale layout, per favore fatemelo sapere pure.
Aggiornare
O invece di specificare un approfondimento possibile, forse qualcosa del tipo "nessun genitore, a meno che non corrispondano a questo o quell'URL".
Aggiornamento 2
C'è una struttura sul server, giusto? Puoi visualizzarlo come un albero. Quindi normalmente con "--no-parent" inizi da un punto A e scendi solo verso il basso.
Il mio desiderio, è la capacità di salire - espresso dicendo che è consentito salire X nodi, o (che è equivalente al 100%) che è consentito salire fino al nodo B (dove la distanza BA = X).
In tutti i casi, le regole per scendere rimangono come definite dagli utenti (ad esempio, scendono solo per livelli Y).
Come conservarlo? In realtà non è davvero la domanda: wgetper impostazione predefinita ricrea la struttura del server, qui non c'è nulla di cui avere paura o non è necessario correggere nulla. Quindi, in 2 parole - come al solito.
Aggiornamento 3
Struttura della directory qui sotto - supponiamo che in ogni directory ci sia un solo file, in R - R.html e così via. Questo è ovviamente semplificato perché puoi avere più di una pagina.
R
/ \
B G
/ \
C F
/ \
A D
/
E
A (A.html) è il mio punto di partenza, X = 2 (quindi B è il nodo di livello più alto che vorrei recuperare). In questo esempio particolare questo significa recuperare tutte le pagine tranne R.html e G.html. A.html è chiamato "punto di partenza" perché io devo cominciare da esso, non dalla B.
Aggiornamento 4
La denominazione viene utilizzata dall'aggiornamento 3.
wget OPZIONI www.foo.com/B/C/A/A.html
La domanda è quali sono le opzioni per ottenere tutte le pagine dalla directory B e successive (sapendo che devi iniziare da A.html).
bar2directory e tutto il suo contenuto. In caso contrario, chiarire.
bar2andare a prendere ma nobar1? Dovebar2risiederà? Cosa succede se due o più directory che non si desidera abbiano sottodirici identici, il loro contenuto dovrebbe essere unito? È quasi certamente più semplice ottenere l'intero sito dannato e quindi potare / spostare le cose come desideri.