Ho due corpora paralleli allineati a frase (file di testo) con circa 50 milioni di parole. (dal corpus Europarl -> traduzione parallela di documenti legali). Ora vorrei mescolare le linee dei due file, ma entrambi allo stesso modo. Volevo avvicinarmi a questo usando gshuf (sono su un Mac) usando un'unica fonte casuale.
gshuf --random-source /path/to/some/random/data file1
gshuf --random-source /path/to/some/random/data file2
Ma ho ricevuto il messaggio di errore end of file, perché a quanto pare il seme casuale deve contenere tutte le parole contenute nel file da ordinare. È vero? Se sì, come dovrei creare un seme casuale adatto alle mie esigenze? Se no, in quale altro modo potrei randomizzare i file in parallelo? Ho pensato di incollarli insieme, randomizzare e poi dividere di nuovo. Tuttavia, questo sembra brutto dal momento che avrei bisogno di trovare prima un delimitatore che non si verifica nei file.
random sources. Per quanto riguardapaste, potresti usare come delimitatore un carattere ASCII basso che è improbabile che si verifichi nei tuoi file (come\x02,\x03...).