Come posso trovare quale memoria ha l'errore CE?


12

In /var/log/kern.log:

kernel: [13291329.657499] EDAC MC0: 48 CE error on CPU#0Channel#2_DIMM#0 (channel:2 slot:0 page:0x0 offset:0x0 grain:8 syndrome:0x0)

Questo è edaclog, uno della memoria ha un ceerrore.

Ho letto edac doc

Dual channels allows for 128 bit data transfers to the CPU from memory.
Some newer chipsets allow for more than 2 channels, like Fully Buffered DIMMs
(FB-DIMMs). The following example will assume 2 channels:


            Channel 0   Channel 1
    ===================================
    csrow0  | DIMM_A0   | DIMM_B0 |
    csrow1  | DIMM_A0   | DIMM_B0 |
    ===================================

    ===================================
    csrow2  | DIMM_A1   | DIMM_B1 |
    csrow3  | DIMM_A1   | DIMM_B1 |
    ===================================

e trova il canale di errore:

$ grep "[0-9]" /sys/devices/system/edac/mc/mc*/csrow*/ch*_ce_count
/sys/devices/system/edac/mc/mc0/csrow0/ch0_ce_count:0
/sys/devices/system/edac/mc/mc0/csrow0/ch1_ce_count:0
/sys/devices/system/edac/mc/mc0/csrow0/ch2_ce_count:144648966
/sys/devices/system/edac/mc/mc0/csrow1/ch0_ce_count:0
/sys/devices/system/edac/mc/mc1/csrow0/ch0_ce_count:0
/sys/devices/system/edac/mc/mc1/csrow0/ch1_ce_count:0
/sys/devices/system/edac/mc/mc1/csrow0/ch2_ce_count:0
/sys/devices/system/edac/mc/mc1/csrow1/ch0_ce_count:0
/sys/devices/system/edac/mc/mc1/csrow1/ch1_ce_count:0

e dovrebbe essere mc0/csrow0/ch2, come il documento, il DIMM dovrebbe essere DIMM_C0, e può essere trovato da dmidecode:

Ma non riesco a trovare questo modulo DIMM, quindi non so quale memoria abbia un problema:

$ dmidecode -t memory | grep 'Locator: PROC'
        Locator: PROC 1 DIMM 2A
        Locator: PROC 1 DIMM 1D
        Locator: PROC 1 DIMM 4B
        Locator: PROC 1 DIMM 3E
        Locator: PROC 1 DIMM 6C
        Locator: PROC 1 DIMM 5F
        Locator: PROC 2 DIMM 2A
        Locator: PROC 2 DIMM 1D
        Locator: PROC 2 DIMM 4B
        Locator: PROC 2 DIMM 3E
        Locator: PROC 2 DIMM 6C
        Locator: PROC 2 DIMM 5F

Ci sono 12 slot e 9 slot hanno memoria.

Quindi, come posso sapere quale memoria ha problemi?


Supplemento:

System Information
        Manufacturer: HP
        Product Name: ProLiant DL180 G6

Che tipo di server è questo? Produttore e modello del server.
ewwhite,

@ewwhite, ciao, ho aggiornato la domanda con le informazioni di sistema.
Tanky Woo,

Quale sistema operativo stai utilizzando?
ewwhite,

@ewwhite OS è Ubuntu 12.04, Kernel è3.10.20
Tanky Woo il

Oh, mi dispiace ... Ubuntu non è davvero supportato su questo hardware , quindi stai perdendo la possibilità di monitorarlo correttamente non usando RHEL / CentOS / Debian / SuSE ...
ewwhite

Risposte:


8

Il tuo problema DIMM è probabile - Locator: PROC 1 DIMM 5F

CPU # 0Channel # 2_DIMM # ​​0 significa:

PROC 1, 
1D,2A = Channel 0  
3E,4B = Channel 1
5F,6C = Channel 2

5F = DIMM 0
6C = DIMM 1

Modificare:

Quando fai domande, maggiori informazioni sono sempre migliori ... Avere il produttore e il modello del server avrebbe semplificato questo:

Ecco il diagramma di memoria di HP ProLiant DL180 G6 Quickspecs :

inserisci qui la descrizione dell'immagine

Il mio suggerimento è che il modulo DIMM nello slot CPU n. 1 sia corretto ... Ma questo è l'hardware HP. Non dovresti indovinare !!

Dovresti utilizzare gli agenti di gestione HP, poiché possono avvisare e fornire dettagli specifici della piattaforma sull'integrità e lo stato dell'hardware ...

[root@veloce ~]# hpasmcli
HP management CLI for Linux (v2.0)
Copyright 2008 Hewlett-Packard Development Group, L.P.

--------------------------------------------------------------------------
This server ProLiant DL180 G6  , is a Proliant 100 Series Server.
NOTE: Some hpasmcli commands may not be supported on 100 series servers.
      Type 'help' to get a list of all top level commands.
--------------------------------------------------------------------------
hpasmcli> show dimm
Cartridge #:    0
Processor #:    1
Module #:       2
Present:        Yes
Form Factor:    fh
Memory Type:    5h
Size:           4096 MB
Speed:          1333 MHz
Status:         N/A

Cartridge #:    0
Processor #:    1
Module #:       1
Present:        Yes
Form Factor:    fh
Memory Type:    5h
Size:           4096 MB
Speed:          1333 MHz
Status:         N/A

Cartridge #:    0
Processor #:    1
Module #:       4
Present:        Yes
Form Factor:    fh
Memory Type:    5h
Size:           4096 MB
Speed:          1333 MHz
Status:         N/A

Cartridge #:    0
Processor #:    1
Module #:       6
Present:        Yes
Form Factor:    fh
Memory Type:    5h
Size:           4096 MB
Speed:          1333 MHz
Status:         N/A

grazie, c'è qualche documento ritirato?
Tanky Woo,

@TankyWoo Sì, vedi sopra.
ewwhite,

PROC1 DIMM 5Fnon hai memoria. Quindi vuoi dire che lo slot non è davvero confermato? Dovrei aggiungere un mirror HP deb e installarlo hpamscliper ottenere il modulo DIMM corretto?
Tanky Woo,

Ho installato hp-health, ed Statusè lo N/Astesso del tuo output incollato.
Tanky Woo,

Esegui hplog -vper verificare la presenza di voci nel registro HP IML.
ewwhite,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.