Alcune verità domestiche sullo storage o perché lo storage aziendale è così costoso?
I dischi rigidi di consumo offrono grandi volumi di spazio in modo che anche l'utente più esigente di * tosse * streaming media * tosse * possa acquistare abbastanza per archiviare una raccolta di diversi terabyte. In effetti, la capacità del disco è cresciuta più velocemente di quanto il transistor conta sul silicio ormai da un paio di decenni.
Lo storage "Enterprise" è un problema un po 'più complesso in quanto i dati hanno requisiti di prestazioni e integrità che dettano un approccio un po' più pesante. I dati devono avere una certa garanzia di disponibilità in caso di guasti hardware e potrebbe essere necessario condividerli con un gran numero di utenti, il che genererà molte più richieste di lettura / scrittura rispetto a un singolo utente.
Le soluzioni tecniche a questo problema possono essere molte, molte volte più costose per gigabyte rispetto alle soluzioni di archiviazione dei consumatori. Richiedono anche manutenzione fisica; i backup devono essere eseguiti e spesso archiviati fuori sede in modo che un incendio non distrugga i dati. Questo processo aggiunge costi continui.
Prestazione
Sul tuo consumatore da 1 TB o anche sul drive near-line aziendale hai solo una testa. Il disco ruota a 7200 RPM, o 120 giri al secondo. Ciò significa che è possibile ottenere al massimo 120 operazioni I / O ad accesso casuale al secondo in teoria * e un po 'meno in pratica. Pertanto, la copia di un file di grandi dimensioni su un singolo volume da 1 TB è relativamente lenta.
Su un array di dischi con 14x 72 GB di dischi, hai 14 teste su dischi che vanno (diciamo) a 15.000 giri / min o circa 250 giri al secondo. Ciò fornisce un massimo teorico di 3.500 operazioni I / O casuali al secondo * (di nuovo, un po 'meno nella pratica). A parità di altre condizioni, una copia del file sarà molte, molte volte più veloce.
*
È possibile ottenere più di un accesso casuale per giro del disco se la geometria delle letture permettesse all'unità di spostare le testine e leggere un settore che è risultato disponibile all'interno di un giro del disco. Se gli accessi al disco fossero ampiamente dispersi, probabilmente ne avrai in media meno di uno. Laddove un array di dischi formattato in un layout a strisce (vedi sotto) otterrai un massimo di una lettura di striping per giro del disco nella maggior parte dei casi e (a seconda del controller RAID) probabilmente meno di uno in media.
L'unità da 1 TB da 7200 RPM sarà probabilmente ragionevolmente veloce sull'I / O sequenziale. Gli array di dischi formattati in uno schema a strisce (RAID-0, RAID-5, RAID-10 ecc.) In genere possono leggere al massimo uno strip per giro del disco. Con una striscia da 64 KB possiamo leggere 64 KB x 250 = circa 16 MB di dati al secondo da un disco da 15.000 giri / min. Ciò offre un throughput sequenziale di circa 220 MB al secondo su un array di 14 dischi, che non è molto più veloce sulla carta rispetto ai 150 MB / sec circa citati per un moderno disco SATA da 1 TB.
Per lo streaming video (ad esempio), un array di 4 dischi SATA in un RAID-0 con una dimensione di striping di grandi dimensioni (alcuni controller RAID supporteranno dimensioni di striping fino a 1 MB) hanno un throughput sequenziale piuttosto elevato. Questo esempio potrebbe teoricamente trasmettere circa 480 MB / sec, il che è abbastanza comodo per eseguire l'editing video HD non compresso in tempo reale. Pertanto, i proprietari di Mac Pro e hardware simile possono eseguire attività di composizione di video HD che avrebbero richiesto una macchina con un array di fibre ad attacco diretto solo pochi anni fa.
Il vero vantaggio di un array di dischi è il lavoro di database che è caratterizzato da un gran numero di richieste I / O sparse di piccole dimensioni. Su questo tipo di carico di lavoro, le prestazioni sono limitate dalla latenza fisica di bit di metallo nel disco che ruota in tondo e avanti e indietro. Questa metrica è nota come IOPS (operazioni I / O al secondo). Più dischi fisici hai, indipendentemente dalla capacità, più IOPS teoricamente puoi fare. Più IOPS significa più transazioni al secondo.
Integrità dei dati
Inoltre, la maggior parte delle configurazioni RAID offre ridondanza dei dati, che per definizione richiede più di un disco fisico. La combinazione di uno schema di archiviazione con tale ridondanza e un numero maggiore di unità offre a un sistema la capacità di servire in modo affidabile un carico di lavoro transazionale elevato.
L'infrastruttura per array di dischi (e SAN nel caso più estremo) non è esattamente un elemento di mercato di massa. Inoltre è uno dei bit che davvero, davvero, non può fallire. Questa combinazione di standard di costruzione e volumi di mercato più piccoli non è economica.
Costo totale di archiviazione incluso il backup
In pratica, il costo maggiore per il mantenimento di 1 TB di dati è probabilmente il backup e il ripristino. Un'unità nastro e 34 set di nastri SDLT o ultrium per un ciclo di nonni completo di backup e ripristino costerà probabilmente più di un array di dischi da 1 TB. Aggiungi i costi di archiviazione off-site e lo stipendio anche di una singola scimmia nastro e improvvisamente il tuo 1 TB di dati non è così economico.
Il costo dei dischi è spesso un modo equo nella gerarchia dei costi di archiviazione dominanti. In una banca, ho avuto occasione di lavorare per l'archiviazione SAN a £ 900 / GB per un sistema di sviluppo e £ 5.000 / GB per un disco su un server di produzione. Anche ai prezzi dei fornitori aziendali il costo fisico dei dischi era solo una piccola parte di ciò. Un altro esempio di cui sono a conoscenza ha una SAN Shark IBM (relativamente) configurata in modo modesto che gli è costata da qualche parte in eccesso di £ 1 milione. Solo l'archiviazione fisica su questo viene caricata a circa £ 9 / gigabyte, o circa £ 9.000 per spazio equivalente al tuo HDD consumer da 1 TB.