Ho visto una discussione sull'uso di RAM ECC sui server. Perché è meglio?
Ho visto una discussione sull'uso di RAM ECC sui server. Perché è meglio?
Risposte:
La RAM ECC può recuperare da piccoli errori nei bit, utilizzando i bit di parità. Poiché i server sono una risorsa condivisa in cui il tempo di attività e l'affidabilità sono importanti, la RAM ECC viene generalmente utilizzata con una modesta differenza di prezzo. La RAM ECC viene utilizzata anche nelle workstation CAD / CAM dove piccoli errori di bit potrebbero causare errori di calcolo che diventano problemi più significativi quando un progetto va in produzione.
Ottimo studio nel mondo reale:
Errori DRAM in natura: uno studio sul campo su larga scala (pdf)
Questo documento fornisce il primo studio su larga scala degli errori di memoria DRAM sul campo. Si basa sui dati raccolti dalla flotta di server di Google per un periodo di oltre due anni, costituendo molti milioni di giorni DIMM. La DRAM nel nostro studio copre più fornitori, densità e tecnologie DRAM (DDR1, DDR2 e FBDIMM).
Il documento affronta le seguenti domande: Quanto sono comuni gli errori di memoria? Quali sono le loro proprietà statistiche? In che modo sono influenzati da fattori esterni, come la temperatura e l'utilizzo del sistema? E come variano con i fattori specifici del chip, come la densità del chip, la tecnologia di memoria e l'età dei moduli DIMM?
Scopriamo che sotto molti aspetti gli errori DRAM sul campo si comportano in modo molto diverso da quanto comunemente ipotizzato. Ad esempio, osserviamo tassi di errore DRAM che sono ordini di grandezza superiori a quelli precedentemente riportati, con tassi FIT (guasti nel tempo per miliardo di ore di dispositivo) da 25.000 a 70.000 per Mbit e oltre l'8% dei DIMM interessati all'anno. Forniamo prove evidenti che gli errori di memoria sono dominati da errori gravi, piuttosto che da errori lievi, su cui si concentra la maggior parte dei lavori precedenti. Scopriamo che, tra tutti i fattori che incidono sul comportamento dell'errore di un DIMM sul campo, la temperatura ha un effetto sorprendentemente piccolo. Infine, a differenza di quanto comunemente temuto, non osserviamo alcuna indicazione che i tassi di errore per DIMM aumentano con le nuove generazioni di DIMM.
È interessante notare che la maggior parte degli errori di memoria erano difficili: gli errori di memoria dura sono irrecuperabili, il che significa che la memoria deve essere sostituita fisicamente come non riuscita , mentre gli errori di memoria morbida possono essere riparati sovrascrivendo la memoria con il valore corretto. Questo mi indica che il valore di ECC è piuttosto limitato.
Esistono due tipi di errori che possono verificarsi in genere in un sistema di memoria. Il primo si chiama errore ripetibile o difficile. In questa situazione, un componente hardware è rotto e restituirà costantemente risultati errati. Un po 'potrebbe essere bloccato in modo da restituire sempre "0", ad esempio, indipendentemente da ciò che è scritto su di esso. Gli errori gravi in genere indicano moduli di memoria allentati, chip bruciati, difetti della scheda madre o altri problemi fisici. Sono relativamente facili da diagnosticare e correggere perché sono coerenti e ripetibili.
Sembra che tutti i server dello studio abbiano utilizzato ECC, quindi non possiamo conoscere i tassi di errore ECC rispetto a quelli non ECC.
Questo documento ha studiato l'incidenza e le caratteristiche degli errori DRAM in una vasta flotta di server di prodotti. Il nostro studio si basa su dati raccolti in oltre 2 anni e copre DIMM di più fornitori, generazioni, tecnologie e capacità. Tutti i moduli DIMM erano dotati di logica di correzione degli errori (ECC) per correggere almeno errori a bit singolo.
ECC presenta numerosi vantaggi rispetto alla parità. Per uno, può rilevare e riparare errori a singolo bit e farlo senza dover arrestare l'intero sistema. Gli errori a più bit restituiranno comunque un errore di parità, ma le probabilità che ciò accada sono astronomicamente basse durante la vita di un PC a meno che la memoria stessa non sia difettosa. ECC è come un'assicurazione auto: ti copre per la maggior parte delle cose che possono andare storte, ma non può impedire un accumulo di auto multiple.
maggiori dettagli qui: Memoria ECC: un must per i server, non per i PC desktop
Per semplificare le cose, citando da Wikipedia :
Le interferenze elettriche o magnetiche all'interno di un sistema informatico possono far sì che un singolo bit di DRAM passi spontaneamente allo stato opposto. Inizialmente si pensava che ciò fosse dovuto principalmente alle particelle alfa emesse da contaminanti nel materiale di imballaggio dei chip, ma la ricerca [5] ha dimostrato che la maggior parte degli errori una tantum ("soft") nei chip DRAM si verificano a causa della radiazione di fondo
...
Questo problema può essere mitigato usando i moduli DRAM che includono bit di memoria aggiuntivi e controller di memoria che sfruttano questi bit. Questi bit extra vengono utilizzati per registrare la parità o per utilizzare un codice di correzione degli errori