Ho due corpora paralleli allineati a frase (file di testo) con circa 50 milioni di parole. (dal corpus Europarl -> traduzione parallela di documenti legali). Ora vorrei mescolare le linee dei due file, ma entrambi allo stesso modo. Volevo avvicinarmi a questo usando gshuf (sono su un Mac) usando un'unica fonte casuale.
gshuf --random-source /path/to/some/random/data file1
gshuf --random-source /path/to/some/random/data file2
Ma ho ricevuto il messaggio di errore end of file
, perché a quanto pare il seme casuale deve contenere tutte le parole contenute nel file da ordinare. È vero? Se sì, come dovrei creare un seme casuale adatto alle mie esigenze? Se no, in quale altro modo potrei randomizzare i file in parallelo? Ho pensato di incollarli insieme, randomizzare e poi dividere di nuovo. Tuttavia, questo sembra brutto dal momento che avrei bisogno di trovare prima un delimitatore che non si verifica nei file.
random sources
. Per quanto riguardapaste
, potresti usare come delimitatore un carattere ASCII basso che è improbabile che si verifichi nei tuoi file (come\x02
,\x03
...).