Statistiche sul malfunzionamento della RAM


8

Qualcuno è a conoscenza di statistiche o studi sulla frequenza con cui i computer hanno RAM malfunzionante?

Aggiornamento: il mio computer va bene! Non ho problemi di RAM, sono interessato alle statistiche. Ricevo segnalazioni di bug per il mio software per le quali una causa potrebbe essere il malfunzionamento della RAM sul computer dell'utente e vorrei sapere quanto è probabile.

Grazie!

Carl


Puoi darci alcuni dettagli sul problema che stai dando la colpa al fallimento della ram?
Dave Cheney,

Un po. Calcoliamo i checksum dai file e da parti di tali file dal disco rigido e una volta caricati nella RAM. Abbiamo notato alcuni risultati molto strani su alcuni sistemi degli utenti, che potrebbero essere spiegati da bug o da malfunzionamento della memoria.
Carl Seleborg,

Risposte:


6

In una popolazione di macchine di classe server 36, vedo un errore correggibile rilevato dai circuiti ECC una volta ogni 3 mesi.

Se si sospetta un errore di memoria, è necessario eseguire memtest86, che viene incluso in quasi tutte le distribuzioni Linux più diffuse in questi giorni.


Come lo monitorate?
Antoine Benkemoun,

La maggior parte dei sistemi LOM ne tiene traccia nei propri registri.
Chris S,

3

Dai tassi di errore DRAM di Robin Harris : Nightmare on DIMM street :

Uno studio di due anni e mezzo sulla DRAM su decine di migliaia di server di Google ha rilevato che i tassi di errore DIMM sono centinaia o migliaia di volte più elevati di quanto si pensi - una media di 3.751 errori correggibili per DIMM all'anno.

Harris cita uno studio condotto per oltre 2,5 anni sulla flotta di server di Google . Si noti che i server di solito utilizzano la RAM CEE, che esegue alcune correzioni di errori. I computer di livello consumer di solito non hanno questo.

Berke Durak di Lambda Diode calcola :

Innanzitutto, supponiamo che tu abbia un sistema senza correzione di errori né parità. La probabilità che si verifichi un errore bit durante il tempo T sarà 1- (1-p) ^ m.

Per T = 1 ora, p = 1.3e-12 e m = 4 * 2 ^ 30 * 8 che fornisce 0,044 o 4,4%. Questa è una probabilità abbastanza alta. Infatti, in un giorno, ciò porta a una probabilità del 66% e in 72 ore a una probabilità del 96%.

Quindi la probabilità di avere almeno un bit di errore in 4 gigabyte di memoria a livello del mare sul pianeta Terra in 72 ore è superiore al 95%.

Non riderò la prossima volta che un collega dice "raggio cosmico" quando non riusciamo a identificare la causa di un incidente ...


2
"Il 20% delle macchine con errori costituisce oltre il 90% di tutti gli errori osservati", "lo studio ha scoperto che i tassi di errore dipendevano dalla scheda madre". Penso che per il momento rimarrò fedele alla saggezza convenzionale. Lo studio odora di "menzogna, maledette bugie e statistiche". (solo i miei 2 centesimi)
Chris S,

2

È possibile avviare il computer con memtest86 + ed eseguire un controllo durante la notte. Ecco come trovo i problemi.

Sì, ho visto bastoni di memoria andare male dove avrebbero fallito solo con un particolare schema di memorie di memoria. Il BIOS del computer non ha rilevato il problema, ma memtest86 lo ha rilevato durante una notte.

Ho visto due stick di RAM andare male su una cinquantina di computer che ho usato negli ultimi dieci anni. Succede, ma non spesso.


Un altro voto per memtest86 +. Cammina la tua memoria poco a poco alla ricerca di errori.
Dave Drager,

Grazie ragazzi, ma ho davvero bisogno di statistiche: il problema non si verifica sul mio computer, ma sul computer dell'utente (e abbiamo oltre 200000 utenti).
Carl Seleborg,

2

Potresti dare un'occhiata a questo studio di Google :

In media, circa uno su tre server Google ha riscontrato un errore di memoria correggibile ogni anno e uno su cento un errore non correggibile

Ma parlano della RAM ECC, non della RAM dell'utente di tutti i giorni


2

Ho visto una manciata di moduli di memoria fallire completamente nei server operativi negli ultimi dieci anni circa e un numero leggermente superiore di errori durante l'esecuzione di Memtest86 nei test su hardware appena consegnato. Questi sono sistemi server, quasi tutti con memoria ECC di un tipo o di un altro, quindi mi aspetto problemi molto più frequenti sui sistemi client con RAM che non corregge errori. Tuttavia, non ho un enorme set su cui lavorare, abbiamo un paio di dozzine di server nostri e in termini di messa in servizio dei sistemi dei clienti direi che ho lavorato su un centinaio di livelli a un livello in cui ' stavo davvero prestando attenzione alla RAM.

Sul lato client ho un po 'più di esperienza a livello aziendale - Sono stato un ingegnere senior per un gruppo che gestiva PC da 50.000 utenti finali per un paio d'anni e non abbiamo mai visto guasti duri o deboli della RAM come un problema significativo, certamente non lo era qualcosa che ha influenzato qualsiasi percentuale misurabile di sistemi. Questo non vuol dire che non è successo, solo che sarei molto sorpreso se si trattasse di un problema che ha interessato> 1% di desktop e notebook di classe business. Alcuni modelli specifici dimostrerebbero tassi di errore molto elevati legati alla costruzione del controllo di qualità, il primo batch di IBM Thinkpad T30 ha avuto un problema con il loro secondo slot DIMM che ci ha portato a dover riparare \ sostituire un paio di migliaia di macchine in un punto.

Questo post sul blog di Microsoft Larry Osterman del 2005 potrebbe dare una possibile spiegazione per alcuni di questi - la sua analisi di alcuni strani errori riportati nel set di dati piuttosto grande che proviene da Segnalazione errori di Windows indica che molti di quegli strani problemi sono causati da clocking. Se è probabile che un numero significativo di utenti finali stia utilizzando un kit di livello consumer over-clock, ciò potrebbe essere correlato ai tuoi errori.


0

Hai la possibilità di utilizzare la "memoria di mirroring" nel tuo sistema - che ti direbbe se hai problemi di memoria o meno - con quella sul posto ci sono molte meno possibilità che eventuali errori siano dovuti a problemi di memoria fisica.


Grazie Chopper3, ma ancora: la domanda riguardava le statistiche. Il mio computer va bene e non posso chiedere a più di 200000 utenti di usare la memoria di mirroring :-)
Carl Seleborg,

Un buon punto, ben fatto, tuttavia non era a conoscenza dell'ambito.
Chopper3

-1

Se usi Linux:

Se non si desidera riavviare memtest86 +, è possibile ottenere alcuni risultati eseguendo memtester per testare la memoria per scoprire se è difettoso o meno. Fa un buon lavoro realisticamente per trovare i difetti irregolari e con i difetti non deterministici in esso. Ha diversi test per rilevare il limite della memoria e produce un report dettagliato degli errori individuati, dei test eseguiti e del tempo impiegato per trovare gli errori nel computer. Non è necessario riavviare, è possibile eseguirlo su un sistema Linux in esecuzione.

Non ho trovato alcun link per l'app ma ecco le informazioni sul pacchetto debian :


Mi dispiace, ma la mia domanda non riguardava il mio sistema. Si prega di leggere più attentamente.
Carl Seleborg,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.