Sto estraendo gli URL da un sito Web utilizzando cURL come di seguito.
curl www.somesite.com | grep "<a href=.*title=" > new.txt
Il mio file new.txt è il seguente.
<a href="http://website1.com" title="something">
<a href="http://website1.com" information="something" title="something">
<a href="http://website2.com" title="some_other_thing">
<a href="http://website2.com" information="something" title="something">
<a href="http://websitenotneeded.com" title="something NOTNEEDED">
Tuttavia, devo estrarre solo le informazioni di seguito.
<a href="http://website1.com" title="something">
<a href="http://website2.com" information="something" title="something">
Sto cercando di ignorare i contenuti <a href
che contengono informazioni e il cui titolo termina con NOTNEEDED .
Come posso modificare la mia dichiarazione grep?
curl www.somesite.com | grep "<a href=.*title=" | grep -v NOTNEEDED > new.txt
?