Dipende davvero da cosa stai cercando di realizzare e cosa intendi per "Cluster di calcolo distribuito". Una volta ho fatto una cosa simile in Uni usando vecchie macchine e PVM che è il "Cluster" nel senso di un gruppo di macchine che agiscono come un singolo computer per eseguire l'elaborazione parallela - pensa ai cluster di Beowulf. Naturalmente, avrai bisogno di un codice scritto per trarne vantaggio.
Un buon punto di partenza sarebbe determinare cosa stai cercando di imparare con questo progetto. Consiglio di leggere l'articolo di Wikipedia su Parallel Computing per i principianti, e quindi di perfezionare le tue esigenze in base a ciò che vuoi fare.
Un semplice sistema di accodamento lavori (come gearman ) può essere sufficiente per ottenere rapidamente risultati interessanti.
Il problema che ho avuto quando ho creato un cluster di elaborazione parallela, era che non avevo nulla da fare su di esso, praticamente era seduto lì, ma era un progetto divertente e ho imparato parecchio. In ogni caso, probabilmente imparerai un po 'e ti divertirai allo stesso tempo, indipendentemente da ciò che scegli di implementare.
Per quanto riguarda la scelta delle distribuzioni, andrei con quello che mi è piaciuto di più, poiché probabilmente dovrai installare le cose dalla fonte. Una volta che hai dimestichezza con l'installazione di tutto, puoi cercare di trovare una distribuzione più adatta alle tue esigenze. Ma qualsiasi distribuzione dovrebbe fare.
Quale software configurare il cluster? Questo dipende interamente dal tipo di cluster creato.
A bordo vs. FS distribuito? Ancora una volta, questo dipende dai requisiti del cluster. Ciascun nodo passerà i dati avanti e indietro tra gli altri nodi? Opereranno come schiavi con un unico padrone? opereranno in modo completamente indipendente? Queste domande inizieranno a informare le tue scelte. E, naturalmente, ci sono sempre compromessi.
Alcuni altri link che potrebbero rivelarsi interessanti:
http://hadoop.apache.org/
http://www.csm.ornl.gov/oscar/
https://computing.llnl.gov/tutorials/parallel_comp/
http://www.google.com/Top/Computers/Parallel_Computing/Programming/Environments/
http://www.google.com/Top/Computers/Parallel_Computing/Beowulf/