Supponiamo che esegua un calcolo di supercomputer su 100k core per 4 ore su http://www.nersc.gov/users/computational-systems/edison/configuration , scambiando circa 4 PB di dati sulla rete ed eseguendo circa 4 TB di I / O. Il calcolo è tutto intero, quindi i risultati sono giusti o sbagliati (nessun errore numerico intermedio).
Supponendo che il codice sia corretto, vorrei stimare la probabilità che il calcolo sia errato a causa di un errore hardware. Qual è un buon modo per farlo? Ci sono buone fonti per i numeri richiesti per fare una stima del genere?