Quanto seriamente dovrei prendere avvisi di errore correggibili ECC?

Ho una pila di server Sun X2200-M2. Questi server dispongono di memoria ECC.

In alcuni di questi server, nella eLOM vengono visualizzati avvisi relativi a "errori ECC corretti rilevati", ad esempio:

# ssh regress11 ipmitool sel elist
   1 | 05/20/2010 | 14:20:27 | Memory CPU0 DIMM2 | Correctable ECC | Asserted
   2 | 05/20/2010 | 14:33:47 | Memory CPU0 DIMM2 | Correctable ECC | Asserted

... alcuni più frequentemente di altri.

Il kernel su questo particolare sistema sta lanciando anche errori EDAC, sebbene con molta più frequenza di quanto l'eLOM stia registrando eventi ECC:

EDAC k8 MC0: general bus error: participating processor(local node response), time-out(no timeout) memory transaction type(generic read), mem or i/o(mem access), cache level(generic)
MC0: CE page 0x42a194, offset 0x60, grain 8, syndrome 0xf654, row 4, channel 1, label "": k8_edac
MC0: CE - no information available: k8_edac Error Overflow set
EDAC k8 MC0: extended error code: ECC chipkill x4 error
EDAC k8 MC0: general bus error: participating processor(local node response), time-out(no timeout) memory transaction type(generic read), mem or i/o(mem access), cache level(generic)
MC0: CE page 0x48cb94, offset 0x10, grain 8, syndrome 0xf654, row 5, channel 1, label "": k8_edac
MC0: CE - no information available: k8_edac Error Overflow set
EDAC k8 MC0: extended error code: ECC chipkill x4 error

Ora se il server sta rilevando ECC non correggibile, il sistema si reimposta, quindi chiaramente è sbagliato e la rimozione / sostituzione dello stick o della coppia identificati risolve il problema.

Ma sto pensando che se l'errore è correggibile, allora non ci sono problemi immediati: posso trattarlo come un avvertimento ed essere pronto a tirare la levetta / coppia se si verifica un errore non correggibile?

ecc

— David Mackintosh
fonte

Dipende da quanto spesso ricevi l'errore. Per una serie di motivi, ECC dovrebbe correggere in media errori a bit singolo circa una volta all'anno. Se li stai ottenendo significativamente più velocemente di così, o se sono errori multi-bit, dovresti essere preoccupato (vorrei sostituire la RAM il prima possibile).

Inoltre, ECC non è perfetto. È possibile che l'errore cumulativo superi ECC; che verrebbe visualizzato come un arresto anomalo del sistema operativo o un problema simile.

— Chris S
fonte

Grazie. Negoziare con il cliente per finanziare sostituzioni.

— David Mackintosh,