Voglio recuperare qualsiasi cosa si trovi tra questi due tag - <tr> </tr>
- da un documento HTML. Ora non ho requisiti html specifici che sarebbero giustificati per un parser html. Ho semplicemente bisogno di qualcosa che corrisponda <tr>
e </tr>
che ottenga tutto nel mezzo e potrebbero esserci più tr
s. Ho provato awk, che funziona, ma per qualche motivo finisce per darmi duplicati di ogni riga estratta.
awk '
/<TR/{p=1; s=$0}
p && /<\/TR>/{print $0 FS s; s=""; p=0}
p' htmlfile> newfile
Come procedere?
awk
sort -u
'/<tr/{p=1}; p; /<\/tr>/{p=0}'
. Pubblica alcuni esempi di input e output previsti se non funzionano.