Come trovare le pagine che si collegano a una pagina specifica?


1

Ho la seguente pagina

http://www.fda.gov/downloads/scienceresearch/fieldscience/laboratorymanual/ucm092156.pdf

Mi piacerebbe trovare le pagine su www.fda.gov che rimandino a questa pagina? Come lo posso fare?


Cosa significa collegamenti a questa pagina ? Luoghi sul sito web della FDA che puntano a quel particolare link?
Tim G.

Luoghi sul sito web della FDA che puntano a quel particolare collegamento, sì
Norfeldt

Risposte:


2
  1. Puoi usare wget per scaricare ricorsivamente l'intero sito Web:

    wget --recursive --page-requisites --html-extension --no-parent --domains www.fda.gov www.fda.gov

  2. È quindi possibile utilizzare egrep per cercare ricorsivamente tra tutti i file per trovare quali pagine collegano a ucm092156.pdf:

    egrep -r -o '*ucm092156.pdf' www.fda.gov/


Ho mac e windows .. no Linux
Norfeldt

Usando homebrew per ottenere wget ..
Norfeldt

1
Si prega di notare che gli amministratori di siti web potrebbero non tener cortesemente a voi scraping il loro sito, in particolare se si dispone di una connessione ad alta larghezza di banda. È del tutto possibile che il tuo indirizzo IP possa essere inserito nella lista nera. Si consiglia di includere anche il --limit-rate bandiera per ridurre le possibilità che ciò accada. Per esempio, --limit-rate=100k ridurrà la velocità di download a 100 KB / sec
Mark Riddell

e me lo dici adesso ... sta raschiando il sito mentre parliamo
Norfeldt

1
A proposito, l'ho trovato grep -rl '*ucm092156.pdf' www.fda.gov/ su mac fa lo stesso lavoro. (ancora aspettando che finisca il download, ma sembra buono fino ad ora)
Norfeldt
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.