È sicuro utilizzare SSD MLC consumer in un server?


44

Noi (e con questo intendo Jeff) stiamo esaminando la possibilità di utilizzare i dischi SSD Consumer MLC nel nostro data center di backup.

Vogliamo cercare di contenere i costi e aumentare lo spazio utilizzabile, quindi gli Intel X25-E sono praticamente a circa 700 $ ciascuno e 64 GB di capacità.

Quello che stiamo pensando di fare è acquistare alcuni degli SSD di fascia bassa che offrono più capacità a un prezzo più basso. Il mio capo non pensa che valga la pena investire circa 5k per i dischi nei server che esauriscono il data center di backup.

Queste unità verrebbero utilizzate in un array RAID a 6 unità su un Lenovo RD120. Il controller RAID è un Adaptec 8k (rinominato Lenovo).

Quanto è pericoloso questo approccio e cosa si può fare per mitigare questi pericoli?


4
Qual è la logica per l'utilizzo di SSD anziché spinner? La saggezza popolare sulle prestazioni dell'SSD è "pagare o non disturbare", ma ci sono certamente altri aspetti che potrebbero essere un vantaggio.
Peter

Sono curioso del problema che stai cercando di risolvere qui. Se è semplicemente uno dei costi, perché gli SSD vengono considerati al posto dei drive convenzionali?
John Gardeniers,

@peterchen, puoi usare un paio di SSD o cinquanta mandrini da 15K.
Mircea Chirea,

@iconiK - vuoi dire "per un server, devi spendere un sacco di soldi comunque"? Se è così - sì, è per questo che mi chiedevo anche io.
Peter

Risposte:


61

Qualche pensiero;

  • Gli SSD dispongono di memoria "overcommit". Questa è la memoria utilizzata al posto delle celle "danneggiate" dalla scrittura. Gli SSD di fascia bassa possono avere solo il 7% di spazio di overcommit; medio raggio intorno al 28%; e dischi aziendali fino al 400%. Considera questo fattore.
  • Quanto scriverai a loro al giorno? Anche gli SSD di fascia media come quelli basati sui 1200 chip Sandforce raramente apprezzano più di circa 35 GB di scritture al giorno prima di tagliare seriamente la memoria sovraccarica.
  • Di solito, il primo giorno di un nuovo SSD è pieno di scrittura, che si tratti di sistema operativo o dati. Se hai un numero di scritture significativamente superiore a> 35 GB il primo giorno, prendi in considerazione di copiarlo in batch per dare all'SSD un "tempo di riordino" tra i batch.
  • Senza il supporto TRIM, le prestazioni di scrittura casuali possono scendere fino al 75% in poche settimane se c'è molta scrittura durante quel periodo - se è possibile, utilizzare un sistema operativo che supporti TRIM
  • I processi interni di garbage collection eseguiti dai moderni SSD vengono eseguiti in modo molto specifico durante i periodi di inattività e si interrompono sull'attività. Questo non è un problema per un PC desktop in cui il disco potrebbe essere silenzioso per il 60% del suo normale ciclo di lavoro di 8 ore, ma esegui un servizio 24 ore su 24 ... quando sarà possibile eseguire questo processo?
  • Di solito è sepolto in profondità nelle specifiche, ma come i dischi 'normali' di cheapo, anche gli SSD economici hanno un ciclo di lavoro di circa il 30%. Li userai per quasi il 100% delle volte, ciò influirà sulla tua frequenza MTBF.
  • Sebbene gli SSD non presentino gli stessi problemi meccanici che i normali dischi presentano, presentano errori a bit singolo e multiplo, quindi considera fortemente il RAIDing anche se l'istinto non lo è. Ovviamente avrà un impatto su tutta quell'incantevole velocità di scrittura casuale che hai appena acquistato, ma consideralo comunque.
  • È ancora SATA non SAS, quindi la gestione delle code non sarà altrettanto buona in un ambiente server, ma anche in questo caso l'incremento di prestazioni extra sarà abbastanza drammatico.

Buona fortuna - semplicemente non "friggerli" con le scritture :)


2
Intendi il 400% per lo spazio extra o il 40%? Stavo per modificare la tua risposta ma non sono riuscito a trovare una citazione, quindi suppongo che potrebbe essere del 400%. (A proposito, è un ottimo punto)
ChrisInEdmonton,

9
Inoltre, non è sempre chiaro se TRIM è supportato su una configurazione RAID. Ricorda, gli SSD vengono estratti dal sistema operativo con RAID. Assicurati di verificare con il fornitore RAID.
Matt Sherman,

5
Intendevo 400 Chris, in particolare quelli utilizzati nelle FC FC, anche se molto costosi.
Chopper3

5
Un trucco per ottenere più spazio di riserva da un'unità è fare la cancellazione sicura, quindi partizionarlo con una grande frazione inutilizzata. Questo spazio libero aumenterà le prestazioni e la durata dell'SSD.
Zan Lynx,

1
Voglio solo fare +1 con @ZanLynx .. Di solito partiziono circa l'80% del disco rigido quando utilizzo SSD + Raid.
Tracker1

12

Ho trovato questo link, che ha un'analisi interessante e approfondita degli SSD MLC vs SLC nei server

A mio avviso, utilizzare un array SSD flash MLC per un'applicazione enterprise senza almeno utilizzare gli (mitigati) effetti attenuanti di una tecnologia come la MFT di Easyco è come saltare da un aereo senza paracadute.

Si noti che alcuni fornitori di SSD MLC affermano che le loro unità sono abbastanza "enterprise" per sopravvivere alle scritture:

SandForce mira ad essere la prima azienda con un controller che supporta chip flash a celle multilivello per unità a stato solido utilizzate nei server. Utilizzando chip MLC, l'SF-1500 apre la strada a unità a basso costo e densità più elevate richieste dai server. Ad oggi le unità flash per server hanno utilizzato chip flash a cella a livello singolo. Questo perché la resistenza e l'affidabilità dei chip MLC generalmente non sono state all'altezza dei requisiti dei server.

C'è un'ulteriore analisi di queste affermazioni presso AnandTech .

Inoltre, ora Intel ha dichiarato che SLC potrebbe essere eccessivo nei server il 90% delle volte :

"Credevamo che fosse richiesto SLC [cella a livello singolo], ma ciò che abbiamo scoperto attraverso gli studi con Microsoft e persino Seagate è che queste applicazioni ad alta intensità di calcolo in realtà non scrivono così tanto come pensavano", ha detto Winslow. "Il 90% delle applicazioni del data center può utilizzare questa unità MLC [cella multilivello]."

.. nell'ultimo anno o giù di lì, i venditori hanno capito che utilizzando software speciali nei controller di unità, sono in grado di aumentare l'affidabilità e la resilienza dei loro SSD MLC di classe consumer al punto in cui le aziende li hanno abbracciati per server per data center e array di archiviazione ad alte prestazioni. I fornitori di SSD hanno iniziato a utilizzare il termine flash NAND eMLC (enterprise MLC) per descrivere tali SSD.

"Dal punto di vista del volume, vediamo che esistono ambienti di elaborazione ad alta intensità di scrittura e ad alte prestazioni che potrebbero ancora aver bisogno di SLC, ma che rappresentano il 10% superiore anche dei requisiti dei data center aziendali", ha affermato Winslow.

Intel sta alimentando quel 10% superiore del mercato dei data center aziendali attraverso la sua joint venture con Hitachi Global Storage Technologies. Hitachi sta producendo la linea SSD400S di SSD Serial Attached SCSI, che ha 6 Gbit / sec. throughput - il doppio di quello dei suoi SSD SATA basati su MLC.

Intel, anche per le unità SSD orientate al server, è passata da SLC a MLC con spazio di "overprovisioning" molto elevato con la nuova serie Intel SSD 710 . Queste unità allocano fino al 20% dello spazio di archiviazione complessivo per la ridondanza internamente:

Le prestazioni non sono la massima priorità per l'SSD 710. Invece, Intel punta a fornire resistenza di livello SLC a un prezzo ragionevole utilizzando eMLC HET NAND più economico. L'SSD 710 supporta anche l'overprovisioning configurabile dall'utente (20%), che aumenta in modo significativo la resistenza dell'unità. La garanzia dell'SSD 710 è di 3 anni o fino a quando un indicatore di usura raggiunge un certo livello, a seconda dell'evento che si verifica per primo. Questa è la prima volta che vediamo una garanzia SSD limitata in questo modo.


7

Basare sempre questo genere di cose sui fatti piuttosto che sulla supposizione. In questo caso, raccogliere i dati è semplice: registra i profili IOPS di lettura / scrittura a lungo termine dei tuoi sistemi di produzione e poi scopri con cosa puoi convivere in uno scenario di ripristino di emergenza. Dovresti usare qualcosa come il 99 ° percentile come misura. Do Non utilizzare le medie quando si misura IOPS cpacity - i picchi sono tutto ciò che conta! Quindi è necessario acquistare la capacità richiesta e IOPS come necessario per il tuo sito di DR. Gli SSD potrebbero essere il modo migliore per farlo, o forse no.

Quindi, ad esempio, se le tue applicazioni di produzione richiedono 7500 IOPS al 99 ° percentile, potresti decidere di vivere con 5000 IOPS in un disastro. Ma ci sono almeno 25 dischi da 15K richiesti proprio lì nel tuo sito DR, quindi SSD potrebbe essere una scelta migliore se le tue esigenze di capacità sono piccole (sembra che lo siano). Ma se si misura solo che si eseguono 400 IOP in produzione, è sufficiente acquistare 6 unità SATA, risparmiare un po 'di moneta e utilizzare lo spazio aggiuntivo per archiviare più snapshot di backup nel sito DR. Puoi anche separare le letture e le scritture nella tua raccolta di dati per capire quanto dureranno gli SSD non aziendali per il tuo carico di lavoro in base alle loro specifiche.

Ricorda inoltre che i sistemi DR potrebbero avere una memoria inferiore rispetto alla produzione, il che significa che sono necessari più IOPS (più scambio e meno cache del filesystem).


5

Anche se l'SSD MLS è durato solo un anno, tra un anno i ricambi saranno molto più economici. Quindi puoi far fronte a dover sostituire l'SSD MLS quando sono fuori?


un buon punto, soprattutto perché saranno in un array RAID .. fintanto che "troppi" non falliranno contemporaneamente, questo è in realtà plausibile.
Jeff Atwood,

@Jeff, se riesci a scambiarne alcuni dentro e fuori con i tuoi PC da tavolo, in modo che non tutti ottengano un po 'di controllo dell'utilizzo, questo renderà meno leccato che falliranno tutti allo stesso tempo.
Ian Ringrose,

@Jeff, penso in larga misura, Fail == "inizia a fare diritti molto lenti" piuttosto che "non leggere i dati"
Ian Ringrose,

non ami la correzione automatica :-)
Jeroen Wiert Pluimers,

3

Se mettiamo da parte il problema della quantità in scrittura (o dimostriamo che gli SSD di livello consumer possono gestirlo), penso che gli SSD siano una buona cosa da aggiungere agli ambienti a livello aziendale. Probabilmente userete gli SSD in un array RAID. RAID5 o RAID6. E il problema con questi è che dopo un guasto di una singola unità, l'array diventa sempre più vulnerabile al fallimento. E il tempo per ricostruirlo dipende fortemente dal volume dell'array. Una ricostruzione di più array TB può richiedere giorni per essere costantemente consultata. Nel caso di SSD, gli array RAID a) saranno inevitabilmente più piccoli b) il tempo di ricostruzione diminuisce drasticamente.


3

Un Whitepaper sulle differenze tra SLC e MLC di SuperTalent mette la resistenza di MLC e un decimo della resistenza di un SSD SLC, ma è probabile che gli SSD MLS sopravvivranno all'hardware in cui li stai inserendo. Non sono sicuro di quanto siano affidabili queste statistiche / fatti di SuperTalent.

Supponendo che tu riceva un livello simile di supporto dal fornitore degli SSD MLC, allora il prezzo più basso vale la pena di provare.


1
Sono state menzionate 5 anni di durata per l'uso tipico del desktop. Se si tratta di una stima accurata, non sopravviveranno al server in un ambiente data center!
JamesRyan,

@JamesRyan: sebbene non mostrato nella maggior parte dei calcoli, la durata dipende molto dalla frazione di spazio libero.
Ben Voigt,

1
Nelle organizzazioni per cui ho lavorato, abbiamo sempre effettuato l'aggiornamento dell'hardware del server a 3 anni. Avevo l'impressione che fosse generalmente accettata la migliore pratica ma mi correggo se sbaglio.
grosso

3

Dovresti semplicemente calcolare la quantità di scritture giornaliere che hai con la tua configurazione attuale e confrontarla con ciò che il produttore garantisce che le loro unità SSD possono sostenere. Intel sembra essere il più in anticipo su questo - ad esempio, dai un'occhiata ai loro fogli dati dell'unità SSD mainstream: http://www.intel.com/design/flash/nand/mainstream/technicaldocuments.htm

La sezione 3.5 (3.5.4, in particolare) del documento sulle specifiche afferma che sei sicuro che il tuo disco durerà almeno 5 anni con 20 GB di scritture al giorno. Presumo che venga calcolato quando si utilizza l'intera capacità dell'unità e non si effettua il provisioning di spazio libero per le scritture.

Interessante anche il foglio dati sull'utilizzo di SSD tradizionali in un ambiente aziendale.


Sfortunatamente non è affatto così semplice perché il livellamento dell'usura amplifica le scritture (ricorda che è progettato per diffondere le scritture non ridurle) in un modo proprietario e può variare enormemente nella sua efficacia in base al modello di utilizzo.
JamesRyan,

Hm, ottimo punto. Inoltre, perdere il comando TRIM se si usano le unità in una configurazione RAID dovrebbe aumentare l'amplificazione della scrittura. Immagino che tutto dipenda dall'idea di ciascun produttore del modello di utilizzo tipico.
Cearny

2

Ho distribuito un paio di dischi SLC da 32 GB un paio di anni fa come buffer per alcune app orribilmente mal progettate che stavamo usando.

L'applicazione era al 90% di piccole scritture (<4k) e funzionava costantemente (24/7) a 14k w / s una volta sulle unità SSD. Erano configurati RAID 1, tutto era roseo, la latenza era bassa!

Comunque all'incirca un mese dopo e il primo disco si è impacchettato, letteralmente entro 3 ore, anche il secondo disco è morto. RAID 1 dopo tutto non è un buon piano :)

Concordo con gli altri poster su una sorta di RAID 6 se nient'altro diffondesse quelle scritte su più unità.

Ora tieni presente che è successo un paio d'anni fa e queste cose sono molto più affidabili ora e potresti non avere un profilo I / O simile.

L'app è stata riprogettata, tuttavia come gap di interruzione che potrebbe aiutarti o meno, abbiamo creato un disco ram di grandi dimensioni, creato alcuni script per ricostruire / eseguire il backup del disco ram e subire il colpo di circa un'ora di perdita di dati /i tempi di recupero.

Ancora una volta, il ciclo di vita dei dati potrebbe essere diverso.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.