Sto cercando di scaricare due siti per l'inclusione su un CD:
http://boinc.berkeley.edu/trac/wiki
http://www.boinc-wiki.info
Il problema che sto avendo è che si tratta di entrambi i wiki. Quindi, durante il download con ad esempio:
wget -r -k -np -nv -R jpg,jpeg,gif,png,tif http://www.boinc-wiki.info/
Ricevo molti file perché segue anche collegamenti come ...? Action = edit ...? Action = diff & version = ...
Qualcuno sa un modo per aggirare questo?
Voglio solo le pagine correnti, senza immagini e senza differenze, ecc.
PS:
wget -r -k -np -nv -l 1 -R jpg,jpeg,png,gif,tif,pdf,ppt http://boinc.berkeley.edu/trac/wiki/TitleIndex
Questo ha funzionato per berkeley ma boinc-wiki.info mi dà ancora problemi: /
PPS:
Ho ottenuto quelle che sembrano essere le pagine più rilevanti con:
wget -r -k -nv -l 2 -R jpg,jpeg,png,gif,tif,pdf,ppt http://www.boinc-wiki.info