Esiste un vantaggio certo o misurabile nell'uso della RAM ECC in un PC desktop?


21

Mi preoccupo molto della costruzione di macchine stabili - in quanto odio assolutamente crash, riavvii, comportamenti divertenti, ecc. - E così correggere gli errori aka ECC RAM sembrerebbe risolvere un grosso problema: errori di memoria.

Ma funziona veramente? Esiste un vantaggio misurabile, ad esempio meno arresti anomali o altri comportamenti?

A parte il costo, perché non utilizzare la memoria ECC per una nuova build di PC? Perché la funzione ECC è prevalentemente disponibile e supportata per macchine di classe server / workstation, ma non nelle schede madri orientate al consumatore?


1
Sì, gli ECC sono davvero utili contro gli errori soft. Un errore soft può causare l'arresto anomalo di un sistema se l'errore è nell'accesso alla memoria. È stato riferito che un singolo errore soft ha fermato un'industria da miliardi di dollari. Ecco un riferimento dettagliato per questo.
user984260,

Risposte:


10

Ho usato ram ECC nei server per alcuni anni. ECC brilla davvero quando si utilizza la macchina pesantemente, come in "è acceso più di 12-16 ore al giorno". Piccoli server whitebox che ho creato senza ECC hanno, prima o poi, sviluppato "problemi" che richiedono un riavvio, ma i computer ECC non li hanno mai avuti.

Quindi la mia risposta è: se si utilizza il computer un sacco , quindi molto probabilmente sì. Se usi il tuo computer 24 ore su 24, 7 giorni su 7, dovrebbe essere un must.

Ci sono alcune schede madri che supportano ECC là fuori. Di solito sono all'estremità "superiore" delle cose, ma con un po 'di ricerca puoi trovarle da vari produttori. L'unica altra considerazione è ricordare di abilitare il supporto ECC nel BIOS.


Google è uscito oscillando su questo problema. Vedi http://blogs.zdnet.com/storage/?p=638 per come ciò influisce davvero sui sistemi moderni.


8
"I piccoli server whitebox che ho costruito senza ECC hanno, prima o poi, sviluppato" problemi "che richiedevano un riavvio" - questo è un po 'apocrifo / elaborazione voodoo per i miei gusti ..
Jeff Atwood,

4
E pensi che non ne sia consapevole? In quale altro modo è possibile spiegare lo stesso software sullo stesso hardware con strani problemi (la posta viene consegnata in modo errato), ma i problemi si risolvono dopo aver sostituito tutta la RAM? Non mi piace neanche l'idea, ma dato che è stato l'unico componente principale a cambiare, e accoppiarlo con i problemi che scompaiono dopo l'aggiornamento ECC, beh, è ​​difficile ignorare ...
Avery Payne,

1
Ho anche dimenticato di menzionare: la RAM è stata sostituita una volta prima dell'aggiornamento ECC e il problema persisteva. Forse è stata una brutta traccia sul mobo. Forse è stato un difetto di design nel tabellone. Con il senno di poi credo che potrebbero essere stati molti altri problemi, ognuno dei quali richiederebbe un EE per uscire e sondare con un ambito, ma alla fine, ECC ha risolto il problema, se non altro per assicurarsi che i dati recuperati dalla RAM siano in uno stato coerente al 100%. Jeff, sono d'accordo che è voodoo ... Non mi piace, ma eccolo.
Avery Payne,

1
@Jeff Atwood - beh ... dopo tutto è stato voodoo, nel senso che non puoi vederlo accadere sul tuo computer ... vedi cs.toronto.edu/~bianca/papers/sigmetrics09.pdf
Avery Payne,

6

Penso solo ECC vale la pena utilizzare quando il server richiede esso. Wikipedia :

Il rilevamento e la correzione degli errori nei sistemi informatici sembra andare di moda. Seymour Cray ha affermato che "la parità è per gli agricoltori" quando gli è stato chiesto perché lo ha lasciato fuori dal CDC 6600. Ha incluso la parità nel CDC 7600, e si dice che abbia appreso che "molti agricoltori acquistano computer".

Non riesco a trovare una fonte definitiva su Internet, oltre alle affermazioni nebulose di errore di un bit al mese per gigabyte, il che è palesemente ridicolo; i server andrebbero in crash a destra e a sinistra in tutto il mondo se ciò fosse vero in remoto .

Alcuni punti salienti di un thread MetaFilter dagli amministratori del server effettivi:

Penso che ECC sia roba interessante, ma ho avuto server sia con che senza, e non ho mai avuto la sua presenza o assenza fare nulla, in entrambi i casi.

Capisco lo scopo della RAM ECC, ma non il punto. Voglio dire, non ho mai notato alcun problema derivante dal capovolgimento dei raggi cosmici. Anche su server di elaborazione / compilazione personali con tempi di attività di più anni. Per non dire che i bit non si sono capovolti, ma sicuramente non avevano importanza.

Nella mia esperienza con aziende agricole di alcune migliaia di macchine qua e là, è più probabile che Ext3 vomiti silenziosamente su di te piuttosto che avere un problema correggibile da ECC.

Personalmente, penso che ECC sia un po 'cultista del carico, ma è una polizza assicurativa ragionevole su un grosso server robusto a condizione che il premio di costo non sia troppo elevato.


Schiantarsi a destra e sinistra? Non penso che sarebbe così male. Interessante ri: "crash destra e sinistra" ... Ma considera: potrebbero verificarsi errori di bit nella RAM non allocata (lotti, su server sottoutilizzati) o nella memoria allocata che non è probabile che venga eseguita o referenziata di nuovo prima che venga liberata e riallocata (ad es. se c'è un po 'di errore nel codice morto, emette un suono?)
Chris W. Rea

Mi chiedo anche se Google ha qualcosa da dire sugli errori di memoria. Gestiscono una tonnellata di server. Mi chiedo quanto tempo di inattività del server sarebbe attribuibile a errori RAM invece di, diciamo, agli alimentatori del fritz ...
Chris W. Rea

3

Lo abbiamo considerato per i sistemi critici. Un problema diventa: come diavolo fai il rilevamento degli errori nel software per verificare l'integrità della memoria, quando il programma utilizzato per eseguire il controllo dell'integrità della memoria può essere esso stesso soggetto a errori di memoria ??? Fondamentalmente non è possibile e rende difficile l'analisi della modalità di errore / mitigazione degli errori, quindi ECC è un meccanismo di mitigazione.

Questo è uno di quei casi in cui se ci sono problemi, puoi effettivamente incolpare i raggi cosmici ;)


2

Vorrei considerare ram ECC per applicazioni "mission critical". Se un errore del server potrebbe causare la perdita di ingenti somme di denaro (o la morte di persone o altro), spingere per la ram ECC. Fondamentalmente, soppesare il costo della RAM ECC rispetto a ciò che si perde in caso di errore.

Ma qualunque cosa tu decida, ti consiglio di eseguire MemTest86 + durante la notte (o abbastanza a lungo per fare più passaggi sull'intero spazio degli indirizzi). E se riesci ad alzare il calore (letteralmente), questo ti darà un'idea di come funzionerà il tuo ram quando il sistema è caldo.

Ho avuto errori di esposizione RAM nuovissimi in MemTest. Ho anche avuto degli errori di sviluppo "buoni" nel tempo che MemTest ha rilevato. È un ottimo strumento e una delle prime cose che eseguo su un nuovo sistema.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.