Errore hardware generico APEI


9

La scorsa settimana il mio server (con Debian Jessie) è stato riavviato due volte. Nel syslog vedo questo prima di ogni riavvio e in nessun altro punto:

Aug 15 13:32:58 hoshimiya kernel: [296512.005355] {1}[Hardware Error]: Hardware error from APEI Generic Hardware Error Source: 1
Aug 15 13:32:58 hoshimiya kernel: [296512.005360] {1}[Hardware Error]: It has been corrected by h/w and requires no further action
Aug 15 13:32:58 hoshimiya kernel: [296512.005361] {1}[Hardware Error]: event severity: corrected
Aug 15 13:32:58 hoshimiya kernel: [296512.005362] {1}[Hardware Error]:  Error 0, type: corrected
Aug 15 13:32:58 hoshimiya kernel: [296512.005363] {1}[Hardware Error]:  fru_text: CorrectedErr
Aug 15 13:32:58 hoshimiya kernel: [296512.005364] {1}[Hardware Error]:   section_type: memory error
Aug 15 13:32:58 hoshimiya kernel: [296512.005365] [Firmware Warn]: error section length is too small

Alcuni googling mi portano a credere che ciò abbia a che fare con la mia RAM ECC che rileva e si ripristina da un errore. È corretto? Se si sta ripristinando, perché il sistema si riavvia? Vorrei impedire il riavvio del sistema, se possibile.

Risposte:


9

Sembra che la RAM non riesca o che si stiano correggendo errori. A seconda della gravità, sembra che questi errori abbiano un impatto sulla sua capacità di funzionare e debba riavviarsi in seguito.

Dall'aspetto di questo thread, il colpevole è il bit di messaggio alla fine della lunghezza della sezione dell'errore troppo piccola.

estratto - [PATCH 1/1] efi: cper: supporta diverse lunghezze della sezione errori

Alcuni campi potrebbero essere aggiunti alla sezione Errore nelle nuove specifiche UEFI. Ad esempio, i campi "Riservato", "Numero posizione", "Gestione scheda" e "Gestione modulo" vengono aggiunti alla sezione Errore memoria avviata dalla specifica UEFI 2.3. Sfortunatamente, verrà visualizzato il seguente messaggio di avviso se viene rilevato l'errore di memoria corretta e il campo 'revisione' in struct acpi_generic_data è inferiore a 0x203 (UEFI spec 2.3):

{1}[Hardware Error]: Hardware error from APEI Generic Hardware Error Source: 3
{1}[Hardware Error]: It has been corrected by h/w and requires no further action
{1}[Hardware Error]: event severity: corrected
{1}[Hardware Error]:  Error 0, type: corrected
{1}[Hardware Error]:   section_type: memory error
[Firmware Warn]: error section length is too small

Questo comportamento fa sì che questo errore corretto non possa essere visualizzato correttamente. Per risolvere il problema, questa patch supporta diverse lunghezze della sezione di errore per diverse versioni delle specifiche UEFI.

Inoltre, questa patch utilizza una struttura predefinita per ripulire i codici duplicati nella funzione cper_estatus_print_section.

Con l'applicazione di questa patch, l'errore corretto nella memoria potrebbe essere visualizzato correttamente dopo l'iniezione dell'errore.

Testato su v3.14-rc5 con piattaforma Grantley e Intel RAStool.

Quindi sembrerebbe che una patch per quel particolare errore sia in lavorazione e potrebbe essere disponibile in una versione più recente del kernel.


3

Cordiali saluti, mi è sembrato di avere un problema molto simile a questo.

Come si è scoperto, la soluzione è stata estrarre la memoria e riposizionarla, e tutto è tornato alla normalità.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.