I controller RAID hanno comunemente problemi di compatibilità del marchio dell'unità SATA?


22

Abbiamo lottato con il controller RAID nel nostro server di database, un Lenovo ThinkServer RD120. È un Adaptec rinominato che Lenovo / IBM duplica ServeRAID 8k .

Abbiamo corretto questo ServeRAID 8k fino all'ultimo e più recente:

  • Versione RAID BIOS
  • Versione del BIOS backplane RAID
  • Driver di Windows Server 2008

Questo controller RAID ha avuto più aggiornamenti critici del BIOS anche nel breve periodo di 4 mesi in cui lo abbiamo posseduto e la cronologia delle modifiche è semplicemente ... beh, spaventosa.

Abbiamo provato le strategie di write-back e write-through sulle unità RAID logiche. Si verificano ancora errori I / O intermittenti durante l'attività del disco pesante. Non sono comuni, ma gravi quando si verificano, poiché causano timeout I / O di SQL Server 2008 e talvolta errori dei pool di connessioni SQL.

Eravamo alla fine della nostra corda per risolvere questo problema. A corto di cose hardcore come la sostituzione dell'intero server o la sostituzione dell'hardware RAID, stavamo diventando disperati.

Quando ho ricevuto il server per la prima volta, ho avuto un problema a causa del quale il vano unità n. 6 non veniva riconosciuto. Il passaggio da un disco rigido a un altro marchio, stranamente, ha risolto questo problema e l'aggiornamento del BIOS RAID (per la prima volta molte volte) lo ha risolto in modo permanente, quindi sono stato in grado di utilizzare l'unità "incompatibile" originale nel vano 6. Su un intuizione, ho iniziato a ritenere che i dischi rigidi SATA Western Digital che avevo scelto fossero in qualche modo incompatibili con il controller ServeRAID 8k.

L'acquisto di 6 nuovi dischi rigidi è stata una delle opzioni più economiche sul tavolo, quindi ho optato per 6 dischi rigidi Hitachi (aka IBM, aka Lenovo) secondo la teoria che un controller RAID IBM / Lenovo ha maggiori probabilità di funzionare con le unità in genere venduto con.

Sembra che quel sospetto sia stato ripagato: abbiamo passato tre dei nostri giorni di carico più pesanti (lun, mar, mer) senza un singolo errore I / O di alcun tipo. In precedenza, in questo lasso di tempo avevamo regolarmente almeno un "evento" I / O. Sembra che cambiare le marche di hard disk abbia risolto i nostri problemi intermittenti di I / O RAID!

Mentre capisco che IBM / Lenovo probabilmente testano il loro controller RAID esclusivamente con la propria marca di dischi rigidi, sono disturbato dal fatto che un controller RAID avrebbe problemi di I / O così sottili con particolari marche di dischi rigidi.

Quindi la mia domanda è: questo tipo di incompatibilità dell'unità SATA è comune con i controller RAID? Esistono alcune marche di unità che funzionano meglio di altre o sono "convalidate" rispetto a un controller RAID specifico? Avevo ipotizzato che tutti i dischi rigidi SATA di merce fossero simili e funzionassero ragionevolmente bene in qualsiasi controller RAID (di qualità sufficiente).

Risposte:


6

, l'ho riscontrato con schede di fascia bassa e driver difettosi. Tuttavia, no , non su una scheda rinominata Adaptec aggiornata. Wow è tutto ciò che posso dire. Una cosa da considerare, forse è più un bug con l'unità che il controller RAID.

Non ho una buona risposta, ma poiché sembri aver esaurito la maggior parte delle opzioni oltre a sostituire la scheda, (e la sostituzione delle unità ha fatto il trucco) ecco alcune idee che puoi prendere in considerazione per la risoluzione dei problemi:

  • Le unità WD erano unità RE (RAID Edition), giusto? Il ripristino dell'errore a tempo limitato è importante, quindi se non lo si possiede e l'unità sta tentando di ripristinare il settore, si otterrà una pausa molto lunga da tale unità. Se il controller RAID è paziente e non fa cadere l'unità, avrai un grosso problema tra le mani.

  • Controllare i dati SMART sulle unità rimosse e vedere se c'è qualcosa di interessante.

Un altro commento sull'importanza della funzione TLER (time limit error recovery), dal supporto del fornitore NAS / RAID:

Come accennato in precedenza, consigliamo sempre ai clienti di utilizzare unità a livello aziendale se utilizzano le unità nelle impostazioni RAID. Le unità a livello aziendale hanno tempi di risposta più coerenti in modo che il RAID sia più sicuro.


non so, ma avevano "Ripristino degli errori limitato nel tempo specifico per RAID" come mostrato nella scheda delle specifiche qui .. newegg.com/Product/Product.aspx?Item=N82E16822136143
Jeff Atwood

Sì, hai quelli giusti. (Nota il RE2 elencato nel titolo.) Questo abbatte quella teoria! Certo, vorrei comunque controllare i dati SMART nel caso (sì, lo so che è raramente utile) ...
TorgoGuy

si scopre che le unità erano in qualche modo traballanti, dopo tutto. Brent Ozar ha ereditato le nostre vecchie unità e ha dovuto RMA almeno una di esse per stranezze ..
Jeff Atwood,

inoltre, un'interessante discussione correlata sulla funzionalità TLER che alcuni venditori vedono come un bit software speciale che girano per rendere le unità magicamente "enterprisey". fatwallet.com/forums/expired-deals/993547
Jeff Atwood

13

Anche per i dischi rigidi desktop non RAID, semplicemente vecchi, l'acquisto di unità dal fornitore (con il markup ridicolo previsto) può spesso fare la differenza. Ad esempio, Apple è attenta a spedire solo unità che sono effettivamente in grado di onorare la F_FULLSYNC fcntl()bandiera di Mac OS X , il che fa molto per garantire che cose come i backup di Time Machine funzionino in modo affidabile.

Ancora una volta, questo è un semplice uso desktop vanilla senza RAID. Qualcosa di più complesso di quello e si desidera sicuramente acquistare, se non le unità troppo costose del fornitore, almeno i modelli di unità che si conoscono sicuramente sono nell'elenco "approvato" del fornitore.

Quindi, per rispondere alla tua domanda, è comune? Direi, sì, più comune di quanto si possa pensare, anche al di là del regno aziendale.


Otterrei sicuramente i modelli di unità che il venditore solitamente vende se hai intenzione di fare un aggiornamento dell'unità fai-da-te per ridurre i costi. Consiglierei anche di non acquistare unità (o controller) con cui il sistema ha appena iniziato a essere distribuito, quindi non si finisce per essere colui che trova i bug! SATA sembra più traballante di SAS in questo senso per qualche motivo ...
Christopher Edwards,

4

Non penso che sia di per sé comune. Tuttavia, non appena si iniziano a utilizzare i controller di archiviazione aziendali, che si tratti di controller RAID SAN o autonomi, in genere si desidera aderire al loro elenco di compatibilità piuttosto da vicino.

Potresti essere in grado di risparmiare qualche soldo sul prezzo dell'adesivo acquistando una gamma economica di dischi, ma questa è probabilmente una delle ultime aree su cui vorrei risparmiare denaro, data l'importanza dei dati nella maggior parte degli scenari.

In altre parole, l'incompatibilità esplicita è molto rara, ma è consigliabile aderire esplicitamente alla compatibilità.


4

Non mi sognerei di usare i dischi SATA per un server - nessuno di loro ha il ciclo di lavoro previsto di un'unità di qualità server e non ha il ricco set di comandi di SCSI / SAS per il monitoraggio delle prestazioni e dell'integrità dell'unità. I server Lenovo sono economici e fantastici se disponi di molti server senza nessuno dei quali è così importante, ma c'è una ragione per cui i server HP serie 300 rappresentano il 40% del mercato: funzionano. In particolare, i controller del disco "SmartArray" sono ineguagliabili in termini di affidabilità e prestazioni e la loro garanzia pre-fallimento è un'aggiunta gradita. Non è il più economico ma quanto vale il tuo tempo? Ho acquistato i loro (ben prima Compaq primi TB) server per vent'anni ormai e non ho alcun problema ad acquistare i 500-800 nuovi all'anno che faccio. Seriamente controllali.


2

La risposta come sempre è "dipende".

Per alcuni tipi di archiviazione aziendale (ad esempio EMC), il fornitore qualificherà in modo specifico le unità e finirà per caricare il firmware personalizzato.

Come dice Mark, trovo che sia il migliore quando segui l'elenco approvato di un fornitore se ce n'è uno. I risparmi sui costi iniziali sono compensati dal tempo impiegato a cercare i gremlin.


vero, ma le unità "speciali" Hitachi SATA di Lenovo costano $ 250 e posso acquistare la stessa unità Hitachi per $ 60. Questo è un differenziale di quasi 5 volte, in altre parole .. $ 1250 contro $ 300. Sono disposto a fare un po 'di sperimentazione per un grande ..
Jeff Atwood,

So che il markup a volte è ridicolo, dovresti vedere i prezzi per le unità EMC! Ma si riduce a quanto apprezzi i tuoi dati. Avere una memoria affidabile costa $$$. Don MacAskill di Smugmug è stato entusiasta del Sun 7410 e potrebbe essere qualcosa che vuoi dare un'occhiata.
Jauder Ho,

Mi chiedo se esiste una scheda 3ware supportata. Ho avuto buone esperienze con loro nel corso degli anni.
Jauder Ho,

2

Hai un controller SAS, questo potrebbe essere il problema. Mentre il protocollo SAS può essere utilizzato per tunnelare i comandi ATA, la segnalazione a livello fisico è leggermente diversa (SAS utilizza una tensione più alta e un differenziale più ampio). Quasi tutti i controller sono in grado di parlare direttamente con le unità SATA, ma se c'è un backplane (grande? Schifoso?) Nel mezzo, il segnale potrebbe essere disturbato. Di solito, nel mondo aziendale, il collegamento diretto dei driver SATA a un controller SAS non è ufficialmente supportato, è necessario utilizzare un interposer (una piccola scheda logica che si collega direttamente al disco che da un lato capisce il protocollo SAS completo, dall'altro parla ATA - in questo modo il backplane porta la segnalazione SAS più alta).

In qualche modo correlato: la miscelazione di unità SAS e SATA sullo stesso backplane tende a fallire, poiché la segnalazione di tutte le unità (incluso SAS) viene ridotta al livello SATA.


1

Molto probabilmente le tue unità WD richiedono un aggiornamento del firmware . Vedi questa nota IBM per il download e l'applicazione dell'aggiornamento. Come puoi vedere dalle istruzioni , le unità WD sono tutt'altro che le uniche con problemi.

Se hai intenzione di mettere le tue unità in un ambiente server di tassazione, dovresti incontrare più problemi che in una tipica configurazione desktop per gli appassionati.

Potresti forse commentare il motivo per cui hai scelto di utilizzare la serie di unità desktop Deskstar serie anziché la serie Ultrastar Enterprise / RAID ? Ritieni che il costo aggiuntivo non valga la maggiore affidabilità e velocità?


quando si tratta di dischi rigidi, credo in molti di essi: array economici e facilmente sostituibili, in cui le prestazioni derivano dalla scala.
Jeff Atwood,

Prestare attenzione quando si utilizzano unità di livello desktop con controller di archiviazione di livello aziendale. Le unità di livello enterprise (in genere) supportano comandi e richieste che le unità di livello desktop non supportano. Un server aziendale che ho ereditato una volta utilizzava unità desktop e ho riscontrato errori frequenti mentre il controller tentava di ottenere informazioni sulla temperatura e sulla salute dell'unità. Poiché i controller aziendali presumono che userete unità aziendali, il controller non è stato in grado di gestire con grazia un'unità che non ha risposto a queste richieste (poiché non si trattava di una configurazione supportata). È tutto molto
YMMV

0

Come ingegnere che lavora con controller RAID, posso dire che non è raro che alcune marche di unità abbiano problemi con determinati controller RAID. Ogni unità ha le sue peculiarità particolari e qualsiasi modello di unità elencato nell'elenco "dispositivi compatibili" del controller avrà le sue peculiarità prese in considerazione dal controller. Affinché un modello di unità venga visualizzato nell'elenco, deve soddisfare gli standard del produttore del controller in termini di prestazioni e affidabilità. Qualsiasi unità non presente in questo elenco potrebbe funzionare, ma poiché non ha superato gli stessi rigorosi test dei dispositivi "approvati", YMMV.

In particolare, il protocollo SATA consente comandi specifici del fornitore (non standardizzati) che possono essere definiti dall'unità o dal controller. Nel tuo caso, potresti vedere un controller che si aspetta che un'unità risponda a un particolare comando proprietario o un'unità che si aspetta di vedere un comando proprietario che non arriva mai.

Un'altra possibilità è che le unità problematiche non si comportino molto bene in determinati carichi di lavoro stressanti e che il comportamento visualizzato sia stato sufficiente affinché Adaptec / IBM non elencasse quel modello di unità come supportato.

Sfortunatamente, i protocolli di archiviazione (SATA, SAS, ecc.) Non sono così belli come altre interfacce standardizzate (USB, PCI, ecc.) In cui tutto ciò che serve è un bus e un dispositivo che parlano la stessa lingua e tutto va bene. Soprattutto quando si tratta di apparecchiature di livello Enterprise, i produttori di dispositivi e i produttori di unità impiegano molto tempo ed energia collaborativi per garantire che i clienti ottengano le migliori prestazioni possibili dalle configurazioni utilizzate dalla maggior parte dei clienti (ovvero, utilizzando unità al di fuori del elenco "dispositivi supportati"). Un'unità non presente in tale elenco potrebbe essere stata progettata per funzionare in modo ottimale con una marca diversa di controller e gli errori riscontrati sono un effetto collaterale dell'ottimizzazione.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.