Uno dei principali esempi che viene utilizzato per dimostrare la potenza di MapReduce è il benchmark Terasort . Ho problemi a comprendere le basi dell'algoritmo di ordinamento utilizzato nell'ambiente MapReduce.
Per me l'ordinamento implica semplicemente la determinazione della posizione relativa di un elemento in relazione a tutti gli altri elementi. Quindi l'ordinamento implica il confronto di "tutto" con "tutto". Il tuo algoritmo di ordinamento medio (veloce, bolla, ...) lo fa semplicemente in modo intelligente.
Nella mia mente, dividere il set di dati in molti pezzi significa che puoi ordinare un singolo pezzo e poi devi ancora integrare questi pezzi nel set di dati completamente ordinato "completo". Dato il set di dati terabyte distribuito su migliaia di sistemi, mi aspetto che questo sia un compito enorme.
Allora come si fa davvero? Come funziona questo algoritmo di ordinamento MapReduce?
Grazie per avermi aiutato a capire.