"Errore Northbridge (nodo 0): errore ECC nella directory del filtro della sonda"


8

Ho ricevuto un'e-mail da un utente preoccupato che i seguenti errori su uno dei suoi server siano indicativi di un grave problema. Il problema è che gli errori che seguono sono tutto ciò che devo fare. Di solito mi considero un googler decente, ma in questo caso posso trovare solo un altro incidente in cui gli utenti hanno riscontrato questo errore relativo a "Directory filtro sonda":

[1044 snapshots @ abc]$
Message from syslogd@abc at Sep  8 02:51:51 ...
  kernel:[Hardware Error]: CPU:0 
MC4_STATUS[Over|CE|MiscV|-|AddrV|-|Poison|CECC]: 0xdc0248d0001f010b

Message from syslogd@abc at Sep  8 02:51:51 ...
  kernel:[Hardware Error]:       MC4_ADDR: 0x0000000000010f40

Message from syslogd@abc at Sep  8 02:51:51 ...
  kernel:[Hardware Error]: Northbridge Error (node 0): ECC Error in the 
Probe Filter directory.

Message from syslogd@abc at Sep  8 02:51:51 ...
  kernel:[Hardware Error]: cache level: L3/GEN, tx: GEN, mem-tx: GEN

Da quello che posso dire, questo è successo solo una volta. Sfogliando i registri per altri errori hardware non si verifica altro che questo incidente.

Il post sul forum che ho citato sopra termina semplicemente dicendo all'utente di non preoccuparsene se è successo solo una volta e non ha causato problemi fatali. Questo è lo stesso consiglio che ho ricevuto dai miei colleghi, che hanno anche menzionato che ci sono troppe variabili (vale a dire che cosa stava funzionando alle 2:50 dell'8 settembre?).

Tuttavia, questo utente vuole essere rassicurato sul fatto che qualcosa non vada storto nel proprio sistema. Cosa possono indicare o essere correlati gli errori di cui sopra? Che cos'è la "directory del filtro della sonda?" Quali test posso eseguire per mettere a proprio agio l'utente in modo che questo non segnali la sua macchina per un destino imminente?

La distribuzione Linux della macchina è Red Hat Enterprise Linux Server versione 6.4 (Santiago).



Whoa, hai ragione! Ho premuto Ctrl + f alla pagina e ho trovato "HT Assist, o il filtro della sonda come viene talvolta chiamato". Finalmente un qualche tipo di riferimento all'errore / punto di partenza! Ho molte letture da fare :)
CptSupermrkt,

@derobert che sembra una risposta, no?
Braiam,

@Braiam quel link spiega solo che cosa è il "filtro sonda" ... non spiega perché OP abbia un errore ECC lì, o se indica un vero problema.
derobert,

Risposte:


1

Non ho una risposta precisa, ma in parte è familiare. Non so cosa sia una directory del filtro della sonda, ma CptSupermrkt lo ha spiegato sopra.

In PCI, un Northbridge si collega alla memoria e al processore. Gli errori ECC sono associati alla DRAM. Ci sono bit di correzione del codice di errore memorizzati con ogni parola. Nelle letture vengono controllati nelle scritture vengono aggiornati. Gli errori ECC sono correggibili o non correggibili, il che indica la possibilità di correggere un errore utilizzando i bit scritti. Non correggibile non indica che c'è un errore hardware permanente. Questi possono accadere quando la DRAM inizia a fallire.

Detto questo, sembra un errore temporaneo. Potresti provare un test di memoria completo, ma è probabile che non trovi nulla. Se la DRAM ha fallito, l'unica azione correttiva è sostituirla.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.