Scommetti con un URL che contiene #

11

Sto cercando di scaricare un URL simile http://www.somesite.com/restaurants.html#photo=22x00085.

L'ho inserito tra virgolette singole, ma scarica solo http://www.somesite.com/restaurants.html che non è la pagina corretta.

C'è una soluzione?

wget url

— user1289749
fonte

non posso provarlo ora, ma da quello che ricordo% 20 funziona per spazio, quindi% 23 probabilmente funzionerebbe per # (% 23 è la codifica percentuale per #)

— lupincho,

3

non è lo stesso file HTML? Il # potrebbe semplicemente dire al browser Web di passare a una parte particolare della pagina.

— barlop

20

wgetsta funzionando bene. La sintassi dell'URI specifica che il frammento - la #fooparte - deve essere interpretato interamente sul lato client e non utilizzato durante il recupero del documento stesso.

Ad esempio, se si tratta di una pagina HTML, il browser potrebbe scorrere fino a una sezione con nome o, nel tuo caso, attivare un codice JavaScript che mostra una particolare foto.

In altre parole, per quanto wgetriguarda gli URI

http://www.somesite.com/restaurants.html#photo=22x00085 e
http://www.somesite.com/restaurants.html

... punta alla stessa pagina /restaurants.html . Spetta al tuo browser fare il resto. L'apertura restaurants.html#photo=22x00085nel browser dovrebbe funzionare correttamente.

— user1686
fonte

8

Senza visitare il link corretto, non posso dire quale sia, ma ci sono solo due opzioni:

L'hash fa effettivamente parte del nome del documento richiesto. In questo caso, puoi codificarlo:

http://www.somesite.com/restaurants.html%23photo=22x00085
Nell'altro caso, in circostanze normali, http://www.somesite.com/restaurants.html e http://www.somesite.com/restaurants.html#photo=22x00085 dovrebbero puntare alla stessa pagina. La parte dopo l'hash indica semplicemente l' ancoraggio a cui il browser dovrebbe scorrere dopo aver caricato la pagina; non viene nemmeno inviato al server.

Tuttavia, è possibile che l'hash sia (ab) utilizzato per caricare una particolare foto con JavaScript. Wget non è in grado di interpretare JavaScript, quindi non puoi farci nulla.

— Dennis
fonte

Ho visto molti siti che abusano del frammento di URL in questo modo; in cima all'elenco c'è Google stesso. Questo viola un sacco di RFC, ma non che molte persone sembrano preoccuparsene, dal momento che "funziona" ...

— Michael Hampton,

1

@MichaelHampton: Potresti indicare esattamente quali RFC viola?

— user1686

@grawity RFC 2396, parte 2.4.3 può essere letta per dire che # non fa parte di nessun URI. Questo sembra essere rilassato in RFC 3986, essendo abbastanza vago da non definire nulla.

— Rich Homolka,

1

@RichHomolka: dice solo che "foo # bar" è in realtà chiamato un "riferimento URI", costituito dall'URI (usato per il recupero dei dati) e dal frammento (interpretazione lasciata all'utente-agente). Sarebbe violato solo se il frammento fosse effettivamente inviato in una richiesta HTTP.

— user1686

0

Questo non è l'URL per l'immagine. È l'URL di una pagina che utilizza uno script o un altro codice per recuperare l'immagine. Prova a caricare la pagina con JavaScript disattivato. Questo è ciò che wget ti sta prendendo.

Per trovare l'URL per l'immagine, prova a visitare la pagina tramite il browser e fai clic con il pulsante destro del mouse sulla foto. Dovrebbe esserci un'opzione per visualizzare informazioni sull'immagine, incluso il suo URL.

Se il problema persiste, è possibile che l'immagine sia stata caricata tramite Flash o altri programmi lato client. Puoi usare Fiddler o Wireshark per vedere quale URL sta caricando.

Se ci fornisci l'URL effettivo del sito con l'immagine, possiamo aiutarti a determinare come viene caricata l'immagine.

— Jeremy Stein
fonte