Sto lavorando al riconoscimento vocale con Tensorflow e sto pianificando di addestrare LSTM NN con un set di dati ad onde enormi. A causa degli aumenti delle prestazioni, ho intenzione di utilizzare tfrecords. Ci sono molti esempi su Internet (Inception per es.) In cui i file di tfrecords sono divisi in frammenti. La mia domanda è: qual è il vantaggio di avere file tfrecords nei frammenti? C'è qualche guadagno aggiuntivo in termini di prestazioni di questa divisione?
.shuffle()
Il metodo non è la soluzione ideale se si dispone di un grande file tfrecord. L'output mischiato è in qualche modo correlato all'ordine originale se non si utilizza una dimensione del buffer di grandi dimensioni. Penso che sia necessario effettuare il pre-shuffle dei dati prima di salvarli su tfrecord o dividerli in frammenti quando si dispone di un set di dati di grandi dimensioni.