wget --content-disposition 'https://www.ncbi.nlm.nih.gov/geo/download/?acc=GSE48191&format=file'
Il file che stai scaricando è un tar
archivio (un file binario), fornito da un collegamento dinamico da un server web. wget
normalmente salverebbe il file usando parte dell'URL che si sta utilizzando, ma in questo caso si tratta solo di un endpoint dell'API REST (o qualcosa di simile), quindi il nome non sarebbe amichevole con cui lavorare (sarebbe comunque un nome valido e il il contenuto del file sarebbe lo stesso).
Tuttavia, in questo caso il server fornisce un'intestazione "Disposizione contenuto" contenente il nome file effettivo, che wget
è possibile utilizzare se si utilizza l' --content-disposition
opzione. Questa opzione è contrassegnata come "sperimentale" nel mio manuale di wget
.
È inoltre necessario citare l'URL in modo che la shell non interpreti i caratteri &
e ?
in esso.
La cosa equivalente usando curl
:
curl -J -O 'https://www.ncbi.nlm.nih.gov/geo/download/?acc=GSE48191&format=file'
Oppure, utilizzando le opzioni lunghe equivalenti:
curl --remote-header-name --remote-name 'https://www.ncbi.nlm.nih.gov/geo/download/?acc=GSE48191&format=file'
Dopo aver scaricato il file, è necessario decomprimerlo:
tar -xvf GSE48191_RAW.tar
A causa del modo in cui è stato creato questo particolare archivio, questo decomprimerà i file dell'archivio nella directory corrente (quindi creare una nuova directory, spostare l'archivio lì e decomprimerlo potrebbe essere una buona idea). I file in questo archivio sono file gzip
compressi CEL
.