RAM in modalità mirroring: ne vale la pena?


18

Non ho molta familiarità con la "Modalità canale speculare" di Intel per un'installazione di Blade Server (il vostro tipico database OLTP MySQL moderatamente pesante in esecuzione sul blade bare metal, nessuna virtualizzazione in questo momento).

Dai documenti Intel sono stato in grado di trovare:

Il processore Intel Xeon serie 5500 e il processore Intel Xeon serie 5600 supportano il mirroring dei canali per configurare i canali disponibili dei DIMM DDR3 nella configurazione speculare. La configurazione speculare è un'immagine ridondante della memoria e può continuare a funzionare nonostante la presenza di sporadici errori non correggibili. Il mirroring dei canali è una funzione RAS in cui vengono mantenute due immagini identiche di dati di memoria, garantendo così la massima ridondanza.

Sulle schede madri Intel basate sul processore Intel Xeon Processor serie 5500 e Intel Xeon Processor serie 5600 basate su processori, il mirroring è realizzato su tutti i canali. I canali attivi contengono l'immagine principale e gli altri canali contengono l'immagine secondaria della memoria di sistema. Il controller di memoria integrato nei processori Intel Xeon serie 5500 e Intel Xeon Processor serie 5600 si alterna tra i due canali per le transazioni di lettura. Le transazioni di scrittura vengono emesse su entrambi i canali in circostanze normali.

Tuttavia, non sto davvero raccogliendo quello che stanno sdraiando qui. Perdo metà della mia capacità di archiviazione, ma ottengo "ridondanza" di memoria e possibili vantaggi in termini di prestazioni di lettura / scrittura? Ti piace RAID 1 per RAM? Qualcuno ha qualche esperienza pratica con questa configurazione?

Risposte:


7

Personalmente avrei usato prima una qualche forma di clustering piuttosto che quel livello di resilienza hardware. Ha senso per i componenti cheapo come i dischi raddoppiarli, ma il mirroring della memoria è un aspetto piacevole ma non così utile. Intendo cosa è più probabile che fallisca; una CPU, il tuo sistema operativo, il tuo software, il tuo mobo, il tuo alimentatore / i. Presto avrei messo i soldi per il raggruppamento.


1
I miei pensieri esatti: sebbene certamente utile per un punto di errore molto specifico, potrei spuntare molte più "scatole" di HA andando sulla rotta del clustering con un altro blade o due (e probabilmente un altro chassis in un altro data center).
gravyface

1
il clustering non ti aiuterà quando i calcoli devono essere eseguiti nei tempi previsti o all'interno di un tineframe. In alcune situazioni il failover richiede più tempo dell'operazione richiesta
Jim B

7

"RAID 1 per RAM" è una descrizione accurata. Nella mia esperienza, non ci sono molti vantaggi in termini di prestazioni, ma a seconda della velocità del bus rispetto alla velocità dei moduli, il chilometraggio può variare.

Per quanto riguarda la ridondanza ... beh, non è terribilmente frequente che un modulo vada male.

Personalmente, disattivo il mirroring ogni volta che lo vedo abilitato.


2
grazie Shane. Hai mai fatto benchmark prima / dopo?
gravyface

@gravyface Non posso dire di sì, purtroppo; semplicemente non ho notato una prestazione distinguibile diversa da on a off (su server database e host VM). Alcuni numeri difficili sarebbero sicuramente carini.
Shane Madden

2
Allora farò alcuni benchmark. Vedi se fa la differenza. Non posso dire che il vantaggio della correzione dell'errore sembri un beneficio tangibile, ma sono curioso di vedere come funziona. Aspetterò un paio di giorni per alcune risposte aggiuntive e quindi segnerò questo come corretto.
gravyface

Vedo che i dimmer si guastano regolarmente, tuttavia, date le dimensioni dell'ambiente, dovrei vedere 1 dimm ogni 2 settimane (statisticamente parlando)
Jim B

4

Ho letto che questo genere di cose (puoi farlo anche con le CPU) è molto utile negli enormi cluster di supercomputer.

Alcuni di questi cluster eseguono così tante macchine che ogni due ore si verifica un errore della macchina. Più veloce di quanto i lavori possano completare. Questo rovina davvero il calcolo. L'aggiunta di ridondanza come questa a ciascun nodo può più che raddoppiare il tempo tra un errore e l'altro.


quindi questa è roba di fascia alta che ora arriva al mainstream, lo prendo. Non vedo davvero molto valore per le mie esigenze. Grazie comunque.
gravyface

Sì, è di fascia alta. Attendere fino a quando non si ottengono CPU hot plug E CPU MIRRORING (!) In un PC;) I mainframe possono passare a un'altra CPU in caso di guasto.
TomTom

3

Questa modalità di memoria è stata davvero progettata per le situazioni in cui è necessaria un'elevata disponibilità. Non si dovrebbe notare una grande differenza di prestazioni (poiché la perdita di un canale probabilmente non è evidente nelle normali operazioni), tuttavia si perde un sacco di RAM. Con il mirroring abilitato, è disponibile solo un terzo della memoria totale perché due slot DIMM sono il canale principale, due slot DIMM sono il canale di backup e due slot DIMM non vengono utilizzati. (almeno così è negli IBM)

In genere consiglio di disattivarlo (se si dispone di un'app o di un sistema operativo a cui piace ram - e diciamocelo: ce n'è uno che non lo fa?) O di salvare per aggiornare al chipset ex5 da IBM (HP e altri presto a seguire con offerte simili) che aggiunge un carico in barca più QPI.

Ci sono occasionali "questo server deve essere attivo indipendentemente dal numero di colpi sparati contro di esso" e questo tipo di ridondanza aiuta. Inoltre, hai acquistato un ram di qualità inferiore a quella stellare, questo potrebbe salvarti da una schermata blu o 2.


Sì, non vedo molto bisogno di questo in questo momento. Ovviamente a nessuno piacciono i tempi di inattività, ma quando ci occuperemo di HA, guarderemo sicuramente al clustering.
gravyface

1
questo in risposta al "vedi un DIMM difettoso ogni due settimane" - con che frequenza vedi DIMM difettosi dopo il periodo di tolleranza? Non ricordo di aver mai avuto una cattiva RAM una volta in produzione; Di solito lo noto nelle prime ore / giorni con un carico di lavoro tipico.
gravyface

I nostri risultati rispecchiano il tasso che Google vede su cs.toronto.edu/~bianca/papers/sigmetrics09.pdf . Abbiamo server configurati in modo simile, schede completamente popolate con molti dimmer e applicazioni che richiedono molta memoria. Osservando 1 dei miei ambienti VMware, vedo 3 dimmer negativi su 18 hs22vs IBM (324 dimmer) completamente popolati. Questi server sono attivi da circa un anno.
Jim B
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.