Come trovare il modulo di memoria difettoso dal messaggio MCE?


11

Sto cercando di capire il messaggio MCE per trovare quale modulo di memoria non funziona su un server. Questo messaggio appare in /var/log/kern.logun server che si blocca due volte oggi.

Apr 13 22:39:22 mbox kernel: [36247975.116860] sbridge: HANDLING MCE MEMORY ERROR
Apr 13 22:39:22 mbox kernel: [36247975.116867] CPU 0: Machine Check Exception: 0 Bank 5: 8c00004000010090
Apr 13 22:39:22 mbox kernel: [36247975.116869] TSC 0 ADDR 4a0d75900 MISC 21405cdc86 PROCESSOR 0:206d7 TIME 1428957562 SOCKET 0 APIC 0
Apr 13 22:39:22 mbox kernel: [36247975.951013] EDAC MC0: 1 CE memory read error 

Sospetto un modulo di memoria difettoso. Il server è un 2x Xeon E5-2650 con moduli di memoria 8x8Go (8 slot di memoria per ogni CPU)

Ecco la popolazione del modulo di memoria da lshw:

 *-memory:0
      description: System Memory
      physical id: 2d
      slot: System board or motherboard
    *-bank:0
         description: DIMM DDR3 1333 MHz (0,8 ns)
         product: 9965516-197.A
         vendor: Kingston
         physical id: 0
         serial: B83AE5C2
         slot: P1_DIMMA1
         size: 8GiB
         width: 64 bits
         clock: 1333MHz (0.8ns)
    *-bank:1
         description: DIMM Synchronous [empty]
         product: Dimm1_PartNum
         vendor: Dimm1_Manufacturer
         physical id: 1
         serial: Dimm1_SerNum
         slot: P1_DIMMA2
         width: 64 bits
    *-bank:2
         description: DIMM DDR3 1333 MHz (0,8 ns)
         product: 9965516-048.A
         vendor: Kingston
         physical id: 2
         serial: EC309238
         slot: P1_DIMMB1
         size: 8GiB
         width: 64 bits
         clock: 1333MHz (0.8ns)
    *-bank:3
         description: DIMM Synchronous [empty]
         product: Dimm4_PartNum
         vendor: Dimm4_Manufacturer
         physical id: 3
         serial: Dimm4_SerNum
         slot: P1_DIMMB2
         width: 64 bits
    *-bank:4
         description: DIMM DDR3 1333 MHz (0,8 ns)
         product: 9965516-048.A
         vendor: Kingston
         physical id: 4
         serial: E9305438
         slot: P1_DIMMC1
         size: 8GiB
         width: 64 bits
         clock: 1333MHz (0.8ns)
    *-bank:5
         description: DIMM Synchronous [empty]
         product: Dimm7_PartNum
         vendor: Dimm7_Manufacturer
         physical id: 5
         serial: Dimm7_SerNum
         slot: P1_DIMMC2
         width: 64 bits
    *-bank:6
         description: DIMM DDR3 1333 MHz (0,8 ns)
         product: 9965516-048.A
         vendor: Kingston
         physical id: 6
         serial: E7305738
         slot: P1_DIMMD1
         size: 8GiB
         width: 64 bits
         clock: 1333MHz (0.8ns)
    *-bank:7
         description: DIMM Synchronous [empty]
         product: Dimm10_PartNum
         vendor: Dimm10_Manufacturer
         physical id: 7
         serial: Dimm10_SerNum
         slot: P1_DIMMD2
         width: 64 bits
 *-memory:1
      description: System Memory
      physical id: 3f
      slot: System board or motherboard
    *-bank:0
         description: DIMM DDR3 1333 MHz (0,8 ns)
         product: 9965516-197.A
         vendor: Kingston
         physical id: 0
         serial: B63A08C3
         slot: P2_DIMME1
         size: 8GiB
         width: 64 bits
         clock: 1333MHz (0.8ns)
    *-bank:1
         description: DIMM Synchronous [empty]
         product: Dimm1_PartNum
         vendor: Dimm1_Manufacturer
         physical id: 1
         serial: Dimm1_SerNum
         slot: P2_DIMME2
         width: 64 bits
    *-bank:2
         description: DIMM DDR3 1333 MHz (0,8 ns)
         product: 9965516-048.A
         vendor: Kingston
         physical id: 2
         serial: EA309638
         slot: P2_DIMMF1
         size: 8GiB
         width: 64 bits
         clock: 1333MHz (0.8ns)
    *-bank:3
         description: DIMM Synchronous [empty]
         product: Dimm4_PartNum
         vendor: Dimm4_Manufacturer
         physical id: 3
         serial: Dimm4_SerNum
         slot: P2_DIMMF2
         width: 64 bits
    *-bank:4
         description: DIMM DDR3 1333 MHz (0,8 ns)
         product: 9965516-048.A
         vendor: Kingston
         physical id: 4
         serial: E7305938
         slot: P2_DIMMG1
         size: 8GiB
         width: 64 bits
         clock: 1333MHz (0.8ns)
    *-bank:5
         description: DIMM Synchronous [empty]
         product: Dimm7_PartNum
         vendor: Dimm7_Manufacturer
         physical id: 5
         serial: Dimm7_SerNum
         slot: P2_DIMMG2
         width: 64 bits
    *-bank:6
         description: DIMM DDR3 1333 MHz (0,8 ns)
         product: 9965516-048.A
         vendor: Kingston
         physical id: 6
         serial: E7305B38
         slot: P2_DIMMH1
         size: 8GiB
         width: 64 bits
         clock: 1333MHz (0.8ns)
    *-bank:7
         description: DIMM Synchronous [empty]
         product: Dimm10_PartNum
         vendor: Dimm10_Manufacturer
         physical id: 7
         serial: Dimm10_SerNum
         slot: P2_DIMMH2
         width: 64 bits
 *-memory:2 UNCLAIMED
      physical id: 7
 *-memory:3 UNCLAIMED
      physical id: 9

Come puoi notare, non esiste un modulo di memoria sul banco n. 5 che. Quindi la mia domanda è: sei d'accordo che questo messaggio riguarda un errore di memoria? E se sì, come posso trovare quale modulo sostituire?

Risposte:


10

Questi errori provengono dalla classe EDAC - Error Detection And Correction edac_mc del dispositivo.

Gli eventi che ricevi sono eventi CE (errori correggibili). Queste sono indicazioni che un modulo DIMM sta iniziando a fallire.

EDAC non ha riportato alcuna informazione specifica su quale riga di memoria o canale si riferisca, quindi è difficile dire quale sostituire fino a quando quello fallisce.

ma dai un'occhiata a: / sys / devices / system / edac / mc / mc * e questo potrebbe dirti un po 'di più su quale riga / dimm potrebbe essere quella difettosa.

Per esempio

ls -s /sys/devices/system/edac/mc/mc0 total 0 0 ce_count 0 csrow1 0 csrow4 0 csrow7 0 reset_counters 0 size_mb 0 ce_noinfo_count 0 csrow2 0 csrow5 0 device 0 sdram_scrub_rate 0 ue_count 0 csrow0 0 csrow3 0 csrow6 0 mc_name 0 seconds_since_reset 0 ue_noinfo_count

guarda il campo ce_count.

in una nota a margine :

Il sistema può ancora continuare a funzionare, ma con meno sicurezza. La manutenzione preventiva e la sostituzione proattiva delle parti DIMM di memoria che presentano CE possono ridurre la probabilità degli eventi temuti UE (errore non correggibile) e dei "panici" del sistema.

maggiori informazioni su edac qui:

https://www.kernel.org/doc/Documentation/edac.txt


o riavvia e, nella schermata di avvio di GRUB, seleziona memtest e ciò potrebbe darti qualche informazione in più.
kamger

Non ci sono più messaggi MCE questa mattina lì (non hanno accesso fisico al server), in attesa che controlli edac, buona idea!
Matg,

1

Può aiutare a installare mcelog ed eseguirlo come demone, può aiutare a fornire report migliori. Sono ancora criptici ma ci sono leggermente più informazioni per trovare il DIMM del culrpit.

mcelog può anche gestire problemi in tempo reale disabilitando le pagine con eccessivi errori di memoria e dandoti così maggiori possibilità di mantenere la macchina in funzione più a lungo fino a quando non puoi recuperarla.


Grazie, è quello che ho fatto, ma non più errori dal primo post. Abbiamo deciso di sostituire tutti i moduli DIMM.
Matg

A volte gli errori sono transitori fugaci e talvolta sono semplicemente legati a posizioni molto specifiche che vengono toccate raramente. Se gli errori non si fossero ripetuti, personalmente non avrei sostituito i dimmer e avrei continuato a monitorare, ma anche la sostituzione è valida.
Baruch anche il

1

Alcuni venditori affermano che diversi errori correggibili in un determinato periodo di tempo non sono dannosi.

Ad esempio, Oracle afferma di sostituire un modulo DIMM quando si verifica uno dei seguenti eventi:

  • Più di 24 errori correggibili (CE) provengono in 24 ore da un singolo DIMM e nessun altro DIMM mostra ulteriori CE.

  • Il modulo DIMM non supera i test di memoria nel BIOS a causa di errori di memoria non correggibili (UCE).

  • Si verificano UCE e le indagini mostrano che gli errori hanno avuto origine dalla memoria.

Notare 24 errori in 24 ore.

https://docs.oracle.com/cd/E19150-01/820-4213-11/dimms.html

Anche,

Se più di un DIMM ha riscontrato più CE, è necessario escludere altre possibili cause dei CE da uno specialista qualificato del supporto Sun prima di sostituire eventuali DIMM.

Sull'ultimo punto, HP dice qualcosa di simile che potrebbe essere proprio il firmware del server a rilevare erroneamente gli errori di memoria. Dicono che in molti casi l'aggiornamento del firmware corregge allarmi falsi positivi. Ciò potrebbe essere particolarmente vero se hai iniziato a ricevere MCE da DIMM diversi.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.