Ho FILE_A che ha oltre 300.000 linee e FILE_B che ha oltre 30 milioni di linee. Ho creato uno script Bash che inserisce ciascuna riga in FILE_A in FILE_B e scrive il risultato del grep in un nuovo file.
L'intero processo richiede oltre 5 ore.
Come posso migliorare le prestazioni della mia sceneggiatura?
Sto usando grep -F -m 1
come comando grep. FILE_A è simile al seguente:
123456789
123455321
e FILE_B è così:
123456789,123456789,730025400149993,
123455321,123455321,730025400126097,
Quindi con Bash ho un while
loop che seleziona la riga successiva in FILE_A e la inserisce in FILE_B. Quando lo schema si trova in FILE_B, lo scrivo nel file result.txt.
while read -r line; do
grep -F -m1 $line 30MFile
done < 300KFile