Sono in un ambiente che contiene molti server Supermicro dotati di controller RAID hardware MegaRAID Adaptec e LSI . Questi controller contengono moduli cache supportati da batteria per migliorare le prestazioni di scrittura e proteggere i dati in transito.
Un frequente problema di supporto è il fallimento della batteria del controller RAID. Ciò sposta l'array dalla modalità write-back alla modalità write-through . Esiste chiaramente un impatto negativo sulle prestazioni poiché il sistema funziona con una velocità di scrittura ridotta. Ciò persiste fino a quando non è possibile stabilire una finestra di inattività per spegnere il sistema e sostituire la batteria.
Questa è un'operazione molto ordinaria per noi; quasi settimanalmente su diverse migliaia di server fisici ... Disponiamo persino di stazioni di ricarica per predisporre batterie sostitutive in modo che possano essere sostituite senza un ciclo di ricarica.
Forse sono rovinato da una lunga storia con i server HP ProLiant e i controller RAID Smart Array , ma i sistemi HP hanno in genere una durata della batteria di 4-6 anni. Alla fine hanno eliminato l'uso delle batterie RAID intorno al 2009. Sono state sostituite con moduli di memoria con supporto da supercondensatore (cache di scrittura con supporto flash o FBWC) e non richiedono sostituzione, smaltimento o un lungo ciclo di carica iniziale.
Dal momento che vedo i guasti della batteria del controller Adaptec e LSI a volte si verificano su sistemi che sono stati in servizio per meno di 12 mesi, mi chiedo se questo è comune in altri ambienti.
Se questo è comune, come lo gestiscono altri ambienti server di grandi dimensioni?
- Suggerimenti o trucchi per la gestione delle sostituzioni di batterie RAID?
- Ci sono dei parametri di configurazione che possono aiutare?
- Quanto è dannoso per le operazioni nel tuo ambiente?
- Il cattivo raffreddamento del telaio e la temperatura potrebbero essere un fattore?
- Stiamo facendo qualcosa di sbagliato?
- I controller Dell PERC sono realizzati da LSI. Gli ambienti Dell hanno la stessa durata della batteria ridotta?
Documentazione sui prodotti LSI che delinea una batteria di nuova generazione che può durare più a lungo in servizio di 1 anno.
Server HP ProLiant DL585 G2 con uptime di oltre 1000 giorni e una felice batteria RAID ...
# uptime
05:38:08 up 1031 days, 44 min, 31 users, load average: 0.49, 0.64, 0.99
# hpacucli
Cache Board Present: True
Cache Status: OK
Accelerator Ratio: 50% Read / 50% Write
Total Cache Size: 512 MB
Battery Pack Count: 1
Battery Status: OK