Come posso unire le righe di due file con intestazioni comuni?


8

Voglio unire due file in base ai dati comuni presenti in essi come intestazione.

Di seguito è riportato l'esempio

file1

>Feature scaffold1
1   100  g
101 200  g
201 300  g
>Feature scaffold2
1   100  g
01  500  g
>Feature scaffold3
10  500  g
>Feature scaffold4
10  300  g

File 2

>Feature scaffold1
500 500 r
900 1000    r
>Feature scaffold2
200 300 r
>Feature scaffold3
100 200 r
>Feature scaffold4
500 600 r
>Feature scaffold5
1   1000    r

Ed ecco il tipo di output che voglio:

>Feature scaffold1
1   100 g
101 200 g
201 300 g
500 500 r
900 1000    r
>Feature scaffold2
1   100 g
01  500 g
200 300 r
>Feature scaffold3
10  500 g
100 200 r
>Feature scaffold4
10  300 g
500 600 r
>Feature scaffold5
1   1000    r

Ho provato alcuni awk e sed ma chiaramente non ci sono riuscito, come posso farlo?

Risposte:


7

Awk soluzione:

awk '/^>/{ k=$1 FS $2 }
     NR==FNR{ 
         if (!/^>/) a[k]=(a[k]!="")? a[k] ORS $0: $0; next
     }
     k in a{ 
         print $0 ORS a[k]; delete a[k]; next 
     }1' file1 file2
  • /^>/{ k=$1 FS $2 }- incontrando la riga di intestazione (cioè >Feature ...) - componi una chiave kdal 1 ° $1e 2 ° $2campo
  • NR==FNR{ ... }- elaborazione del primo file di input ( file1):
    • if (!/^>/) a[k]=(a[k]!="")? a[k] ORS $0: $0- accumula righe non di intestazione nell'array ausando la chiave correntek
    • next - passa al record successivo
  • k in a- se la chiave corrente basata sul file2record è nella matrice a(basata sui file1record):
    • print $0 ORS a[k] - stampare i record correlati
    • delete a[k] - elimina gli articoli elaborati

Il risultato:

>Feature scaffold1
1   100  g
101 200  g
201 300  g
500 500 r
900 1000    r
>Feature scaffold2
1   100  g
01  500  g
200 300 r
>Feature scaffold3
10  500  g
100 200 r
>Feature scaffold4
10  300  g
500 600 r
>Feature scaffold5
1   1000    r

4

Un altro approccio e per renderlo più semplice.

grep -v '^scaffold' <(awk -v RS='>Feature ' \
    'NF{s[$1]=s[$1]$0} END{for (x in s)print RS""s[x]}' file[12])
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.