Frequenza / durata di guasto della batteria della cache del controller RAID hardware?


14

Sono in un ambiente che contiene molti server Supermicro dotati di controller RAID hardware MegaRAID Adaptec e LSI . Questi controller contengono moduli cache supportati da batteria per migliorare le prestazioni di scrittura e proteggere i dati in transito.

Un frequente problema di supporto è il fallimento della batteria del controller RAID. Ciò sposta l'array dalla modalità write-back alla modalità write-through . Esiste chiaramente un impatto negativo sulle prestazioni poiché il sistema funziona con una velocità di scrittura ridotta. Ciò persiste fino a quando non è possibile stabilire una finestra di inattività per spegnere il sistema e sostituire la batteria.

Questa è un'operazione molto ordinaria per noi; quasi settimanalmente su diverse migliaia di server fisici ... Disponiamo persino di stazioni di ricarica per predisporre batterie sostitutive in modo che possano essere sostituite senza un ciclo di ricarica.

Forse sono rovinato da una lunga storia con i server HP ProLiant e i controller RAID Smart Array , ma i sistemi HP hanno in genere una durata della batteria di 4-6 anni. Alla fine hanno eliminato l'uso delle batterie RAID intorno al 2009. Sono state sostituite con moduli di memoria con supporto da supercondensatore (cache di scrittura con supporto flash o FBWC) e non richiedono sostituzione, smaltimento o un lungo ciclo di carica iniziale.

Dal momento che vedo i guasti della batteria del controller Adaptec e LSI a volte si verificano su sistemi che sono stati in servizio per meno di 12 mesi, mi chiedo se questo è comune in altri ambienti.

Se questo è comune, come lo gestiscono altri ambienti server di grandi dimensioni?

  • Suggerimenti o trucchi per la gestione delle sostituzioni di batterie RAID?
  • Ci sono dei parametri di configurazione che possono aiutare?
  • Quanto è dannoso per le operazioni nel tuo ambiente?
  • Il cattivo raffreddamento del telaio e la temperatura potrebbero essere un fattore?
  • Stiamo facendo qualcosa di sbagliato?
  • I controller Dell PERC sono realizzati da LSI. Gli ambienti Dell hanno la stessa durata della batteria ridotta?

Documentazione sui prodotti LSI che delinea una batteria di nuova generazione che può durare più a lungo in servizio di 1 anno. inserisci qui la descrizione dell'immagine

Server HP ProLiant DL585 G2 con uptime di oltre 1000 giorni e una felice batteria RAID ...

# uptime 
 05:38:08 up 1031 days, 44 min, 31 users,  load average: 0.49, 0.64, 0.99

# hpacucli
   Cache Board Present: True
   Cache Status: OK
   Accelerator Ratio: 50% Read / 50% Write
   Total Cache Size: 512 MB
   Battery Pack Count: 1
   Battery Status: OK

2
Solo un suggerimento: l'ultima generazione di controller Adaptec utilizza anche supercaps / flash anziché batterie.
Sven

Oh, sono consapevole del fatto che tutti i produttori dispongono ora di soluzioni basate su supercap , ma data l'impronta dell'installazione esistente, è difficile apportare un ampio cambiamento in tutta l'infrastruttura.
ewwhite,

2
Non l'ho mai fatto (probabilmente perché sembra una cattiva idea e non ho avuto il problema con la stessa frequenza con cui lo sei), ma potresti provare a sostituire una batteria RAID su un server di prova mentre è accesa. Sfilalo, togli il coperchio, scollega la batteria difettosa e collega il buono, quindi torna nel rack ... Se tutto va bene, hai un nuovo processo di sostituzione della batteria che non comporta tempi di inattività.
Agosto

2
@August Uhm, man mano che le procedure rischiose vanno, questo suona piuttosto in alto nella lista "OMG DOVE I MIEI DATI VAI".
Dan,

2
Certo che lo fa ... Sono d'accordo che sembra un'idea orribile, ma data la situazione e i requisiti per nessun tempo di inattività, potrebbe valere la pena provare su un server di prova (o trenta server di prova ...) per vedere se lo è possibile. Qual è un'altra opzione oltre a rifare l'infrastruttura per non fare affidamento su singole batterie RAID in migliaia di server?
Agosto

Risposte:


9

Ho il sospetto che i tuoi Supermicros siano rotti in un modo o nell'altro - forse i pacchi batteria si stanno surriscaldando. Gli LSI più recenti segnalerebbero la temperatura tramite MegaCLI: potresti voler monitorare questo valore sui server che necessitavano di essere sostituiti.

root@host:~/SOLARIS# ./MegaCli -AdpBbuCmd -GetBbuStatus -aALL

BBU status for Adapter: 0

BatteryType: BBU
[...]
Temperature: 41 C

Ho visto un paio di sistemi Dell e Fujitsu con controller BBU LSI, nessuno di essi ha avuto la sostituzione annuale del pacco batteria (tranne per il fatto che hai rovinato il pacco a scarica profonda). Il tempo di vita tipico è di circa 3-5 anni.


4
Aggiungerei che a meno che il sistema non autorizzi ESPLICITAMENTE la sostituzione a caldo della BBU RAID, non tenterei. Non ho mai visto un sistema richiedere la sostituzione annuale della batteria della cache RAID. 3-5 anni è una durata tipica.
voretaq7,

Penso che tu l'abbia capito!
ewwhite,

1

La durata media della batteria dovrebbe essere di 3-5 anni. E non dimenticare che anche l'FBWC basato su flash ha esito negativo. Non so perché / come, ma li sostituivamo regolarmente sui nostri server HP. Dovrei durare più a lungo della batteria, ma non ho statistiche dai nostri singoli server.

Il modo standard per prevenire gli effetti del mancato apprendimento della batteria e della batteria è disporre di più batterie. Ecco come lo ha lo storage HP (come HP EVA). Hai 2 batterie hot plug e mentre una è in carica o in fase di sostituzione, il controller funziona con quello rimanente. Non sono sicuro se è possibile avere più batterie collegate a SmartArray, ma l' hpacucli diagoutput suggerisce che dovrebbe essere supportato:

Battery 1 firmware is up to date.
Battery 2 not present.
Battery 3 not present.

Battery Status:    Battery 1      Battery 2      Battery 3
---------------    ---------      ---------      ---------
Present:              YES             NO             NO
Responding:           YES            N/A            N/A
PIC Revision:          52              .              .         
Status:              0x80              .              .         
Extra Status:        0x01              .              .         
   Enabled:         FALSE              .              .         
   Charging:        FALSE              .              .         
   Good:             TRUE              .              .         
   Open:            FALSE              .              .         
   Shorted:         FALSE              .              .         
   Sample Err:      FALSE              .              .         
Control:             0x00              .              .         
Load Current: (0x70) 24.6mA            .              .    
   Per Memory Chip:  4920uA            .              .         
Voltage:      (0xae) 5640mV            .              .         
Capacity:             100%             .              .         
Depletion count:     0x00              .              .         

1

La mia esperienza con le versioni IBM delle piattaforme LSI su alcune centinaia di installazioni è che la batteria media fa a malapena 2 anni e supercap non è migliore, alcune delle quali possono essere riparate con un aggiornamento del firmware, ma LSI non ce l'ha giusto. Ho avuto circa il 75% di errori di supercap nei primi 2 anni.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.