Questo dipende dall'hardware del server. Un whitebox o un sistema Supermicro gestiranno questo in modo diverso rispetto a un Dell, HP o IBM ...
Una delle funzionalità a valore aggiunto dei server di fascia alta è che esiste un livello di integrazione hardware / SO. Server più belli segnaleranno ciò che stai cercando come parte degli agenti di gestione e / o della soluzione di gestione fuori banda (ILO, DRAC, IPMI).
È necessario utilizzare gli strumenti nativi per la propria piattaforma hardware.
Estratto da un server HP ProLiant con Linux e agenti di gestione HP:
Trap-ID=6056
ECC Memory Correctable Errors detected.
e
Trap-ID=6052
Advanced ECC Memory Engaged
o un più grave
Trap-ID=6029
A correctable memory log entry indicates a memory module needs to be
replaced.
o il peggio ... Ignorando un errore per 6 giorni fino a quando il server si arresta in modo anomalo a causa di RAM difettosa
0004 Repaired 22:21 12/01/2008 22:21 12/01/2008 0001
LOG: Corrected Memory Error threshold exceeded (Slot 1, Memory Module 1)
0007 Repaired 02:58 12/07/2008 02:58 12/07/2008 0001
LOG: POST Error: 201-Memory Error Single-bit error occured during
memory initialization,
Board 1, DIMM 1. Bank containing DIMM(s) has been disabled.
0008 Repaired 19:31 12/08/2009 19:31 12/08/2009 0001
LOG: ASR Detected by System ROM
Questi sono stati registrati, oltre a trap SNMP ed e-mail inviate.
In genere, vedrai Eccezioni controllo macchina nel buffer dell'anello del kernel, in modo da poter controllare dmesg
o eseguire mcelog . Nelle mie esperienze con gli equipaggiamenti Supermicro senza IPMI, ciò non ha catturato tutto, e ho ancora avuto errori RAM che scivolavano attraverso le crepe e causavano interruzioni. Sfortunatamente, questo ha portato a criteri di burn-in RAM arcaici prima delle distribuzioni del sistema.