In alcune situazioni, le unità "enterprise" possono essere sostituite in sicurezza da near / midline?

Quando si specificano i server, come (suppongo) molti ingegneri che non sono esperti di archiviazione, generalmente lo farò al sicuro (e forse sarò uno schiavo del marketing) standardizzando su un minimo di 10k unità SAS (e quindi sono " enterprise "-grade con un duty cycle 24x7, ecc.) per i dati" di sistema "(di solito SO e talvolta app) e riserva l'uso di unità mid / nearline 7.2k per l'archiviazione di dati non di sistema in cui le prestazioni non sono significative fattore. Tutto ciò presuppone che i dischi da 2,5 "(SFF), poiché i dischi da 3,5" (LFF) siano realmente rilevanti solo per requisiti di IOP ad alta capacità e bassi.

In situazioni in cui non esiste una grande quantità di dati non di sistema, generalmente li posizionerò sullo stesso disco / array dei dati di sistema, il che significa che il server ha solo unità SAS da 10k (generalmente un tipo "One Big RAID10" di installazione in questi giorni). Solo se la dimensione dei dati non di sistema è significativa, di solito considero l'idea di metterli su un array separato di dischi mid / nearline da 7,2k per mantenere bassi i costi / GB.

Questo mi ha portato a chiedermi: in alcune situazioni, quei dischi da 10k nell'array RAID10 potrebbero essere stati sostituiti con dischi da 7.2k senza conseguenze negative significative? In altre parole, a volte sto esagerando (e mantenendo felici i fornitori di hardware) attenendomi a un minimo di 10k dischi "enterprise", o c'è un buon motivo per attenersi sempre a questo come minimo?

Ad esempio, prendi un server che funge da hypervisor con un paio di VM per una tipica piccola azienda (diciamo 50 utenti). La società ha modelli di I / O medi senza requisiti speciali. Tipico ufficio 9-5, lun-ven, con backup in esecuzione per un paio d'ore a notte. Le VM potrebbero forse essere un controller di dominio e un file / print / app server. Il server ha un array RAID10 con 6 dischi per memorizzare tutti i dati (dati di sistema e non di sistema). A mio avviso non esperto, sembra che i dischi mid / nearline possano andare bene. Prendendo ad esempio i dischi HP:

Carico di lavoro: i dischi della linea mediana hanno un carico di lavoro <40%. Con l'ufficio aperto solo per 9 ore al giorno e l'I / O medio durante quel periodo è improbabile che si avvicini al massimo, sembra che il carico di lavoro sia improbabile che superi il 40%. Anche con un paio d'ore di I / O intenso di notte per i backup, suppongo che sarebbe comunque inferiore al 40%
Velocità: sebbene i dischi siano solo 7,2k, le prestazioni vengono migliorate distribuendole su sei dischi

Quindi, la mia domanda: è sensato attaccare un minimo di 10k unità SAS o i dischi midline / nearline da 7,2k in realtà sono più che adeguati in molte situazioni? In tal caso, come posso misurare dove si trova la linea ed evitare di essere schiavo dell'ignoranza giocando sul sicuro?

La mia esperienza è principalmente con i server HP, quindi quanto sopra potrebbe avere un po 'di inclinazione HP, ma presumo che i principi siano abbastanza indipendenti dal fornitore.

— dbr
fonte

I dischi della linea mediana SFF 7.2k non hanno senso a causa delle limitazioni di capacità e dovere. Se stai parlando di apparecchiature HP (la mia specialità) , le unità SAS 10k da 900 GB e 1,2 TB da 10 k saranno l'opzione migliore se non stai utilizzando SSD. Se sei negli Stati Uniti, un SAS da 900 GB dovrebbe essere ~ $ 300-400 se hai un buon fornitore.

— ewwhite,

Reclamo grammaticale minore: se dici "sostituisci X con Y", ciò implica che avevi Y per cominciare e lo stai sostituendo con X.

— pjc50

Sicuro di vivere nel 2015? Perché da alcuni anni il mio disco OS è un piccolo SSD (risparmia energia, ecc.) E non toccherei nessun HD per prestazioni elevate.

— TomTom,

@ TomTom No, sono nel 2016 :) In tutta serietà, non l'ho davvero preso in considerazione. Come ho detto nel mio post, in questi giorni in genere cercherò un approccio "un grande RAID 10", quindi il sistema operativo andrà avanti lì. Separare il sistema operativo su un SSD separato sembra inutile se non è veramente necessario. Sarei interessato a sentire i tuoi pensieri. Utilizzeresti un singolo SSD o una coppia di mirroring? Forse questo renderebbe SF domanda una buona di per sé ...

— DBR

Coppia con mirroring per sistema operativo. HP vende persino sistemi operativi / SSD specifici per l'avvio.

— ewwhite,

Risposte:

C'è un'interessante intersezione tra design del server, tecnologia del disco ed economia qui:

Vedi anche: Perché i dischi LFF (Large Form Factor) sono ancora abbastanza diffusi?

Il passaggio a densi rackmount e piccoli server con fattore di forma. Ad esempio, non vedi più molte offerte di torri dai principali produttori, mentre le linee di prodotti più spesse godono di revisioni più frequenti e hanno più opzioni / disponibilità.
La stagnazione nello sviluppo del disco da 3,5 "enterprise (15k) - 600GB 15k 3.5" è grande quanto puoi.
Avanzamento lento delle capacità del disco da 2,5 "near line (7,2k) - 2 TB è il più grande che troverai lì.
Maggiore disponibilità e prezzi inferiori per SSD ad alta capacità.
Consolidamento dello storage su storage condiviso. I carichi di lavoro a server singolo che richiedono capacità elevata possono talvolta essere gestiti tramite SAN.
La maturazione di array di storage all-flash e ibridi, oltre all'afflusso di startup di storage.

Quanto sopra è il motivo per cui in genere i produttori si concentrano su server 1U / 2U con alloggiamenti per unità disco da 8-24 2,5 ".

I dischi da 3,5 "sono per casi di utilizzo ad alta capacità a basso IOP (2 TB +). Sono i migliori per alloggiamenti di archiviazione esterni o archiviazione SAN supportati da una qualche forma di cache. Con velocità aziendali di 15k RPM, sono disponibili solo fino a 600 GB.

I dischi di filatura da 2,5 "10k RPM sono per esigenze IOPS più elevate e sono generalmente disponibili con capacità fino a 1,8 TB.

I dischi rotanti da 2,5 "RPM da 7,2k sono una cattiva scelta perché non offrono né vantaggi in termini di capacità, prestazioni, longevità o prezzo. Ad esempio, il costo di un disco SAS 10k da 900 GB è molto vicino a quello di un SAS da 1 TB da 7,2k RPM. Dato il piccolo prezzo differenza, l'unità da 900 GB è l'acquisto migliore. Nell'esempio di 1,8 TB SAS 10k contro 2,0 TB SAS 7,2k , anche i prezzi sono molto garanzie sono rispettivamente di 3 e 1 anno.

Quindi, per server e memoria interna da 2,5 ", utilizzare SSD o 10k. Se hai bisogno di capacità e disponi di alloggiamenti per unità da 3,5" disponibili internamente o esternamente, utilizza 7,2k RPM.

Per i casi d'uso che hai descritto, non stai configurando eccessivamente i server. Se hanno alloggiamenti per unità da 2,5 ", dovresti davvero utilizzare 10k SAS o SSD. I dischi della linea mediana sono una perdita di prestazioni, capacità, hanno una garanzia significativamente più breve e non risparmiano molto sui costi.

— ewwhite
fonte

Grazie per aver dedicato del tempo a metterlo insieme. Domani avrò la possibilità di pensarci bene. Basta dare un'occhiata ai prezzi, sembra un salto del 30% tra 1 TB 7,2k e 900 GB 10k, il che non è enorme (sono nel Regno Unito se conta). Potrebbe essere un fattore se hai un budget limitato, anche se stai cercando di risparmiare in parecchi posti e la selezione del disco è solo uno di questi. Sarei interessato a sentire cosa ne pensi della domanda anche da una prospettiva puramente tecnica.

— dbr

Da un punto di vista tecnico, non c'è alcun vantaggio su un disco da 72 "RPM da 2,5". Se i costi sembrano troppo lontani, continua a fare acquisti. C'è poca differenza in questo mercato. Se questo è per scopi di disco di avvio, SSD è una buona alternativa. Ma io non riesco a pensare a nessun motivo per cui oggi uso un disco HP 7200 da 2,5 "in un server. Inoltre, leggi attentamente i tuoi HP quickspecs. L'unità Midline ha garanzie più brevi.

— ewwhite,

In generale questa risposta è ottima. Ma come con qualsiasi altra cosa, "dipende". Nell'esempio di un disco da 900 GB 10k contro 1 TB 7200, il disco da 1 TB funzionerà più fresco e quindi forse durerà più a lungo e sarà meno costoso. Se non hai bisogno della prestazione aggiuntiva, allora è uno spreco di denaro, sia il costo di capitale originale che le operazioni. Per un server, non importa molto. Per 10, inizia a sommare.

— Dan Pritts, il

Davvero il disco che gira più lentamente durerà più a lungo? Qualche articolo che mi manca?

— Vasin1987,

Dal punto di vista di un fornitore / produttore, sì. Sono indirizzando a 10k e SSD 2.5" . Se tu fossi bianco-boxing, andare a 7200 RPM. Infatti, la mia ZFS Storage vendor, PogoStorage , uso 7200 RPM da 2,5" per i loro ZFS array perché il caching e SSD tiering eliminare la è necessario specificare dischi più veloci.

— ewwhite,

Esistono almeno alcune cose che potrebbero causare problemi con ALCUNI tipi di unità:

Unità che non intendono gestire il carico di vibrazione di uno chassis con molte unità (problema improbabile con qualsiasi unità specificata come compatibile con RAID / NAS)
Firmware che non consente TLER o che richiede una riconfigurazione manuale del disco che richiede tempo per abilitarlo (idem)
Unità che non sono mai state testate con il controller RAID utilizzato e potrebbero presentare bug non riconosciuti che emergono in tale configurazione
Cache di scrittura su disco interno che si comportano in un modo (la scrittura fisica è fuori servizio o molto ritardata) che causa molta confusione in caso di arresto forzato (il controller RAID deve essere configurato per forzare questi OFF. Potenziale problema se il firmware dovesse mai ignorare Vedi unità non testate :)
L'unità potrebbe eseguire occasionalmente routine di manutenzione interna che potrebbero comportare un funzionamento lento dell'unità o rispondere con un ritardo sufficiente, in modo da far ritenere che il controller RAID non sia riuscito (correlato a TLER)
SATA in generale, come viene di solito implementato, ha meno protezioni rispetto a SAS contro un'unità con elettronica completamente sparata o sospesa che appende tutto sul controller (non un rischio teorico, alcune combinazioni di marca disco + controller adorano quella modalità di errore).

— rackandboneman
fonte

Questi sembrano motivi per utilizzare unità qualificate con l'hardware del server e lo stack dell'applicazione, ma non in particolare circa 10k contro 7k2 rpm.

— poolie

La domanda può essere facilmente compresa (erroneamente) per "un disco non enterprise 7.2k o uno progettato per l'uso aziendale a unità singola, può essere utilizzato nell'applicazione?". E "in sicurezza" di solito implicherebbe di affrontare i rischi di perdita di dati o tempi di inattività correlati ai guasti.

— Rackandboneman,

ENORME problema:

(Potrebbe essere un po 'fuori tema - ma è importante! )

Quando hai a che fare con SSD - (come spesso accade, o potrebbe essere il caso o la tentazione) - molti SSD hanno un brutto problema in cui non possono sempre riprendersi da interruzioni di corrente spontanee!

Questo è un piccolo problema con gli HDD. Gli HDD di solito hanno una capacità sufficiente per alimentare la loro logica e un momento angolare sufficiente per trasportare i piatti finendo di scrivere un blocco da 512 byte - nel caso in cui si perda la potenza durante la scrittura. Una volta in un rara , mentre, questo non lavoro, con conseguente qualcosa chiamato "scrittura strappato" - in cui un singolo blocco può essere in parte scritto. La scrittura parziale (albiet rare) provocherà un errore di checksum sul blocco, vale a dire che il singolo blocco sarà danneggiato. Questo di solito può essere rilevato come dannoso dai circuiti del disco stesso e corretto dal controller RAID upstream.

Gli SSD sono un animale diverso. Di solito implementano qualcosa chiamato "wear leveling" - dove non scrivono semplicemente "blocco X" in una posizione fisica per "blocco X" come fa un HDD. Invece, provano a scrivere in punti diversi sul supporto flash e provano ad aggregare o combinare le scritture (usando un po 'di buffering). Scrivere in luoghi diversi implica mantenere una "mappa" di dove sono scritte le cose, che è anche tamponata e scritta in modo da ridurre il livellamento dell'usura. Parte del livellamento dell'usura può anche comportare lo spostamento di dati che sono già sul dispositivo e non è nemmeno stato scritto di recente.

Questo problema è che quando l'SSD perde potenza - ha molti dati in memoria (non scaricati), ha alcuni dati che sono stati scritti in posizioni diverse / modificate - e ha queste mappe nella propria memoria che devono essere svuotato per dare un senso alla struttura di tutti i dati sul dispositivo.

MOLTI SSD non hanno la logica o i circuiti per essere in grado di mantenere i loro controller attivi e in vita abbastanza a lungo all'uscita spontanea per scaricare in sicurezza tutti questi dati da far lampeggiare prima che muoiano. Questo non significa solo che quel blocco che hai scritto ora potrebbe essere in jeprody - ma altri blocchi - anche tutti i blocchi sul dispositivo potrebbero essere in difficoltà. Molti dispositivi hanno anche problemi in cui non solo perdono tutti i dati sul dispositivo, ma il dispositivo stesso diventa in muratura e inutilizzabile.

Questa è tutta una vera teoria - ma (lavorando nel settore dello storage) - l'ho visto accadere troppe volte su troppi dispositivi, incluso in alcuni dei nostri laptop personali!

Molti venditori hanno discusso della realizzazione di "SSD di livello enterprise" in cui si aggiungono specificamente dispositivi ("supercapsule") e altri circuiti per consentire un "flush" pulito, ma è molto molto difficile trovare qualsiasi dispositivo che dichiari espressamente come parte di esso scheda tecnica che dispone di una protezione sufficiente, esplicita e testata da tali eventi e proteggerà da tali eventi.

Ovviamente se acquistate un "array di archiviazione di fascia alta" da un fornitore di alto livello che utilizzava la tecnologia flash, le loro unità o il loro sistema nel suo insieme sono stati progettati tenendo conto di tutto ciò. Assicurarsi che abbia!

Il problema rispetto alla tua domanda è: se hai un array RAID - e molti dei dischi sono SSD "cattivi" senza questa protezione - se ottieni "un'interruzione spontanea dell'alimentazione" - potresti perdere TUTTI i dati sui dischi MULTIPLI rendendo impossibile la ricostruzione RAID.

"Ma io uso un UPS"

È anche generalmente importante notare che "l'interruzione spontanea dell'alimentazione" può includere situazioni come BSOD e blocchi / crash / panici del kernel - in cui non si ha la possibilità di ripristinare per staccare la spina dal sistema.

— chiodo senza testa
fonte

È raro che qualcuno stacchi la spina su un sistema sospeso (a meno che non stia distruggendo il disco) abbastanza rapidamente da non consentire ai dischi di qualsiasi tipo di svuotare la cache. E in quel caso, gli HDD convenzionali con cache abilitate possono produrre lo stesso pasticcio, anche se con meno possibilità di bricking ma ancora con una significativa possibilità di corruzione dei dati - Reiserfs, NTFS iniziale, tendevano a sparare da quello perché gestivano i dati del journal essere scritto per un'attività che non si è effettivamente verificata (o viceversa, entrambi probabilmente con svuotamento della cache fuori servizio) MOLTO male.

— rackandboneman

Un SSD progettato correttamente non corromperà o perderà i dati nel caso in cui i dati non siano stati completamente scaricati. Poiché la posizione fisica di ciascun settore logico può cambiare ad ogni scrittura, la versione precedente dei dati in ciascun settore logico dovrebbe comunque esistere nel caso in cui l'aggiornamento non sia stato ancora scaricato. È comunque possibile perdere dati se il firmware presenta difetti di progettazione o bug di implementazione.

— Kasperd,

Gli SSD consumer @kasperd sono venduti in modo rapido e fanno compromessi per farlo. Mentre dovrebbe essere possibile mantenere l'integrità come suggerisci, il fatto è che la maggior parte dei produttori spinge (almeno a livello di consumatore) semplicemente no. Anche quando raggiungono l'EoL la maggior parte non fallisce con grazia.

— JamesRyan,

@JamesRyan Le storie sui produttori che imbrogliano con lo svuotamento dei dati per l'archiviazione persistente per ottenere risultati migliori in alcune metriche delle prestazioni non sono nuove. Ne abbiamo sentito parlare anche nei giorni dei dischi rigidi. Non è perché questo è ciò che vogliono i consumatori. È perché i consumatori vedono solo alcune delle metriche e non sanno come il produttore ha imbrogliato in altre aree per raggiungerlo. A volte i produttori evitano di barare, a volte no. (Sono sicuro che qualcuno potrebbe escogitare un'analogia con un'auto ispirata alle notizie recenti.)

— Kasperd,

Gli SSD sono un animale diverso. Hanno tabelle delle mappe che indicano DOVE sono i dati. Stanno spostando e trasferendo i dati e regolando queste mappe. Hanno BISOGNO di unire le loro scritture (es. Rimandare, raggrupparle e scriverle in seguito) per evitare l'amplificazione della scrittura. Le mappe stesse non possono essere scritte in modo aggressivo e devono seguire queste stesse regole. Possiamo "progettare correttamente" e difetti, ma gli SSD non sono "semplici" come filesystem pubblicati (che non sono semplici). Sto parlando di MOLTE esperienze, prove, specifiche e potrei o non aver parlato con un produttore - o due - o tre nel mio lavoro.

— Brad