L'importanza della memoria ECC


11

I moduli di memoria ECC sono importanti da avere su un server non critico?

Stavo pensando di procurarmi un server dedicato ai giocattoli per molte cose casuali e non critiche. I riavvii sporadici non sono un grosso problema. Sto guardando un fornitore, ma i prezzi sono follemente economici. Il loro hardware sembra uno scherzo per qualsiasi server box serio: processori desktop, RAM non ECC, chassis senza nome, nessun HDD SATA hot-swap, ecc. (Beh, il prezzo lo giustifica, immagino).

Prendo la memoria ECC per scontato su qualsiasi server "serio", quindi mi chiedo se è un grosso problema o meno per gli apparecchi "giocattolo".


3
Metti in dubbio la memoria ECC ma sembra felice di usare le unità SATA. Molto strano.
John Gardeniers,

3
@JohnGardeniers Vedi, anche se questo significa un HDD morto una volta all'anno, non mi dispiace che poche ore di downtime e il recupero dei raid. Ma avere problemi giornalieri / settimanali sarebbe fastidioso. Sì, in questo caso sono più preoccupato del mio tempo libero che del tempo di attività in questo caso ...
PJK

6
@JohnGardeniers: le unità SATA non sono più affidabili degli HDD SCSI / SAS: usenix.org/event/fast07/tech/schroeder/schroeder.pdf
Hubert Kario

Risposte:


11

I dati pubblicati dallo staff IT del CERN ( Integrità dei dati ) suggeriscono che la quantità di errori che proviene dalla RAM è piuttosto bassa. Devi ancora ponderare i tuoi dati e il costo dell'hardware.

Puoi leggere qualcosa in più su questo su StorageMojo .


10

La RAM ECC aiuta sostanzialmente a prevenire errori che si verificano durante la lettura e la scrittura dalla RAM. La possibilità che si verifichi effettivamente un errore è piuttosto piccola, ma diversa da zero. Direi che se non fai cose mission-critical potresti scappare senza la RAM ECC - come ho detto, le possibilità di incontrare un errore che l'ECC eviterebbe è davvero, molto piccola.


6

Che cos'è un server non critico? Uno che può fallire?

La RAM ECC è fondamentale quando l'affidabilità della memoria è fondamentale.

Due cose crescono con la crescita delle dimensioni della memoria:

  • la dipendenza del software dalla memoria, esp. software server (ad es. memorizzazione nella cache)
  • la probabilità di errore di memoria (p = num_bits * p_bit_failure)

Questa presentazione di Intel su ECC riporta questi fatti:

  • La velocità media dell'errore di memoria per un server con 4 GB di memoria in esecuzione 24x7 è di 150 volte l'anno
  • ~ 4000 errori correggibili per modulo di memoria all'anno
  • L'overclocking e l'età del sistema aumentano notevolmente i tassi di errore
  • I guasti ricorrenti sono comuni e si verificano rapidamente (il 97% si verifica entro 10 giorni dal primo fallimento) => effetto valanga
  • Per un server ECC con una durata compresa tra 3 e 5 anni, la probabilità di errore irreversibile della memoria per errore di sistema è inferiore allo 0,001%

Un'altra recente ricerca del WISC mostra che ECC è essenziale per questi sistemi ZFS:

ZFS non ha precauzioni per i danni alla memoria: i blocchi di dati errati vengono restituiti all'utente o scritti su disco, le operazioni del file system falliscono e molte volte l'intero sistema si arresta in modo anomalo.

È importante notare che altri filesystem sono sensibili a questa forma di corruzione dei dati tanto quanto lo è ZFS.

ECC è ciò che ti salva dall'incontrare questi problemi, quando possibile, e in casi disastrosi, ciò che ti avverte di ciò che accade prima che sia troppo tardi.


1

Semplicemente non è così importante. Se avessi bisogno di un tempo di attività del 99,999%, ti preoccuperesti. A parte questo, riavvierai più spesso di quanto otterrai errori di memoria.


1

Questo studio condotto da Google dal 2009 ha rilevato un tasso di errore compreso tra 25000 e 70000 errori per miliardo di ore di dispositivo per megabit. Ciò significa che per 8GiB di RAM (usata) c'erano all'incirca da 1,7 a 4,8 errori all'ora.

I bitflip sono qualcosa che esiste e non dovrebbero essere ignorati non appena l'integrità dei dati è importante.

Nel tuo caso (roba casuale, non critica) sarebbe probabilmente eccessivo.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.