Spazio libero "obbligatorio" su una SAN?


8

Non sono un esperto di SAN, sto scrivendo qui per ottenere alcuni indizi su problemi continui ed esasperanti che stiamo riscontrando e che il nostro fornitore sembra non essere in grado di risolvere.

possediamo una SAN ENHANCE ES3160P4 con dischi 16 x 2 Tb che è stata fornita per il nostro sistema di videosorveglianza. La SAN è stata configurata dal fornitore per l'utilizzo di 14 dischi in un array RAID 5 e 2 dischi sono parti di ricambio globali. Il RAID è generalmente diviso in 2 dischi virtuali di uguale dimensione che si estendono su tutto lo spazio RAID. Ognuno risulta essere qualcosa di più di 12 Tb. Ogni disco virtuale corrisponde a un singolo LUN, collegato a un singolo server video che archivia continuamente i dati video e consente agli utenti di recuperare le registrazioni quando necessario. I LUN sono formattati con NTFS e sono collegati ai server video di Windows Server 2012 tramite iSCSI. I server dei video tendono a sfruttare appieno lo spazio disponibile che hanno.

Con questa configurazione i dischi della SAN si guastano e si guastano e ogni volta che la SAN non può ripristinare il RAID perché nel frattempo un altro disco si guasta. Abbiamo perso il RAID come 4 volte negli ultimi mesi.

Questo problema non sembra essere causato da un cattivo esempio SAN, perché possediamo altre tre macchine dello stesso tipo configurate in modo simile che sembrano avere gli stessi problemi. Solo uno non ha problemi, ma al momento è sottoutilizzato.

Dopo alcuni mesi di test e controlli sconosciuti, il fornitore ha finito per dire che è noto che la SAN non dovrebbe essere utilizzata al 100% o che si degraderà rapidamente, anche fisicamente, e ha detto che per risolvere il problema dovrebbero essere creati i dischi virtuali lasciando un 10-15% dello spazio totale disponibile nel RAID.

Ho cercato sul web il problema e non ho trovato dichiarazioni specifiche che lo dicessero. Mi sembra che sarebbe più ragionevole creare dischi virtuali su tutto il RAID e quindi sottoutilizzare i LUN (ovvero, consentire a Windows di avere spazio libero ed evitare la frammentazione). In caso contrario, non capisco perché ENHANCE SAN consenta di creare dischi virtuali che coprono l'intero RAID se è così "noto" da lasciare un po 'di spazio libero e perché il fornitore ha configurato il sistema in questo modo all'inizio ... ma questo è un altro punto.

Alla fine, vogliamo risolvere questa situazione. Qualsiasi suggerimento è accettato. Come detto, non sono un esperto di SAN, ma dopo tanti problemi mi piacerebbe davvero capire se il fornitore sa cosa sta succedendo o meno, perché non possiamo più accettare questa situazione.

Molte grazie in anticipo! Saluti

Modifica: tipo di disco Dalla risposta sembrano essere informazioni rilevanti, aggiungo che i dischi sono tutti modelli Western Digital WD2001FYYG-01SL3.


3
Qualsiasi sistema correttamente progettato, se avesse bisogno di riservare spazio per funzionare correttamente, riserverebbe spazio senza offrirlo ai clienti. Le snapshot potrebbero richiedere spazio e i filesystem Copy-on-Write lo fanno, ma quelli di solito hanno una piccola riserva per questi scopi. Almeno per impostazione predefinita, che può ovviamente essere sovrascritto dagli utenti se sono disposti a correre il rischio.
ptman,

Almeno i dischi hanno un bell'aspetto, sono dischi SAS 24/7, ma non dovrebbero fallire così spesso ...
Sven

4
L'iossue non è spazio libero, è una configurazione idiota. 14 dischi in un Raid 5 non sono stabili per la matematica, così semplici. Anche Raid 6 può tassarlo. Generalmente, un Raid con dischi da 2 TB non è statisticamente stabile. Periodo.
TomTom,

1
@ TomTom: se pensi che sia matematica semplice, rispondi alla domanda che mostra la matematica. La mia matematica del tovagliolo dice che l'array è stabile se è improbabile che la lettura di 13 * 2 TB per ricostruire un array degradato. Il raid 6 ovviamente è meglio, è stabile se è improbabile che la ricostruzione abbia un doppio errore.
Salterio

4
With this configuration the disks of the SAN are failing and failing, and each time the SAN cannot recover the RAID because another disk fails in the meanwhile. We lost the RAID like 4 times in the last few months.Questo è esattamente perché, come dice TomTom, i dischi sono troppo grandi per RAID5. E probabilmente anche RAID 6, FWIW. Le tue probabilità di una ricostruzione di successo non sono in alcun modo vicine al 100%, e lo sai perché tu stesso hai dichiarato che hai avuto "come 4" ricostruzioni senza successo nel giro di pochi mesi. La tua configurazione RAID è idiota e il tuo fornitore è incompetente, semplice.
HopelessN00b,

Risposte:


10

Da quello che descrivi, il problema principale è che hanno deciso di utilizzare un RAID5 per un array così grande, che è una scelta piuttosto sbagliata per questa configurazione, proprio per il motivo che si verifica: avere un secondo disco guasto durante il ripristino rompe tutto, e questo secondo fallimento è troppo probabile per correre questo rischio.

Se invece avessero utilizzato, ad esempio, un RAID6, avere un secondo disco guasto durante il ripristino non avrebbe portato a un array guasto e il ripristino avrebbe potuto procedere normalmente, al costo di una capacità di archiviazione netta di un disco e un certo impatto sulle prestazioni.

Non riesco a vedere in che modo lasciare il 15% di spazio libero sarebbe di grande aiuto con questo problema, e mentre questa potrebbe o meno essere una buona idea dal punto di vista delle prestazioni per il file system, questo è chiaramente estraneo al RAID in errore. Chiamo cazzate su questo.

Detto questo, non posso fare a meno di chiedermi: questo accada più volte nel corso di pochi mesi sembra essere troppo anche per un sistema RAID5. Suggerirei di esaminare i tipi di disco utilizzati: potrebbe essere proprio il tuo fornitore a utilizzare unità desktop economiche anziché unità 24/7 certificate per essere utilizzate in un tale sistema.


Grazie per i tuoi input. Ho modificato la domanda aggiungendo il tipo di disco.
z2k,

2

Capisco perfettamente che questo è un vecchio post, ma mentre continuo a vedere grandi array RAID5 in produzione, vorrei aggiungere qui i miei pensieri.

  • i dischi che si guastano troppo spesso sono generalmente causa di surriscaldamento e / o troppe vibrazioni, che si possono trovare su sistemi scarsamente progettati o in posizioni errate

  • array RAID5 così grandi dovrebbero essere fortemente evitati. Come regola generale, è molto meglio avere un array RAID6 piuttosto che uno RAID5 + hotspare. Nel caso OP, anziché avere un disco di parità 1x con 2x hotspares globali, era molto meglio avere un disco di parità 2x in una configurazione RAID6;

  • è fondamentale disporre di un sistema affidabile per la segnalazione degli errori e dello stato: un array inconsapevolmente degradato e non monitorato è una ricetta per il disastro.


continua a vedere grandi array RAID5 in produzione "Più grande deve essere migliore!", giusto? Aggiungo anche che array così grandi hanno prestazioni ORRIBILI in generale a causa della scarsa geometria e della contesa tra più LUN condivisi dallo stesso array, anche se gli array sono costruiti con RAID6. L'IME quasi gli array più grandi che consiglierei sono 4 + 1 RAID5 e 8 + 2 RAID6. Alcuni controller di fascia alta possono nascondere alcuni problemi di prestazioni con array più grandi, ma il controller migliore non aiuterà mai i tempi di ricostruzione.
Andrew Henle,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.