Come estrarre tutti i collegamenti esterni di una pagina Web e salvarli in un file?


11

Come estrarre tutti i collegamenti esterni di una pagina Web e salvarli in un file?

Se hai qualche strumento da riga di comando sarebbe fantastico.

Risposte:


18

Avrai bisogno di 2 strumenti, lynx e awk , prova questo:

$ lynx -dump http://www.google.com.br | awk '/http/{print $2}' > links.txt

Se hai bisogno di linee di numerazione, usa il comando nl , prova questo:

$ lynx -dump http://www.google.com.br | awk '/http/{print $2}' | nl > links.txt

Non credo che questo funzionerà per i relativi URL
Sridhar Sarnobat,

8

Ecco un miglioramento sulla risposta di Lelton: non hai bisogno di awk per il fatto che Lynx ha alcune opzioni utili.

lynx -listonly -nonumbers -dump http://www.google.com.br

se vuoi numeri

lynx -listonly -dump http://www.google.com.br

0
  1. Usa Beautiful Soup per recuperare le pagine web in questione.
  2. Usa awk per trovare tutti gli URL che non puntano al tuo dominio

Consiglierei Beautiful Soup su tecniche di raschiatura dello schermo.


Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.