Voglio recuperare qualsiasi cosa si trovi tra questi due tag - <tr> </tr>- da un documento HTML. Ora non ho requisiti html specifici che sarebbero giustificati per un parser html. Ho semplicemente bisogno di qualcosa che corrisponda <tr>e </tr>che ottenga tutto nel mezzo e potrebbero esserci più trs. Ho provato awk, che funziona, ma per qualche motivo finisce per darmi duplicati di ogni riga estratta.
awk '
/<TR/{p=1; s=$0}
p && /<\/TR>/{print $0 FS s; s=""; p=0}
p' htmlfile> newfile
Come procedere?
awksort -u
'/<tr/{p=1}; p; /<\/tr>/{p=0}'. Pubblica alcuni esempi di input e output previsti se non funzionano.