In molte situazioni di vita reale in cui si applica MapReduce, gli algoritmi finali finiscono per essere diversi passaggi di MapReduce.
cioè Map1, Reduce1, Map2, Reduce2 e così via.
Quindi hai l'output dell'ultima riduzione necessaria come input per la mappa successiva.
I dati intermedi sono qualcosa che (in generale) non si desidera conservare una volta completata correttamente la pipeline. Anche perché questi dati intermedi sono in generale una struttura di dati (come una "mappa" o un "insieme"), non si vuole fare troppi sforzi per scrivere e leggere queste coppie chiave-valore.
Qual è il modo raccomandato per farlo in Hadoop?
C'è un esempio (semplice) che mostra come gestire questi dati intermedi in modo corretto, inclusa la pulizia in seguito?