Archivio a lungo termine e conveniente di dati video e di immagine? ~ 50 TB


16

Il mio laboratorio sta installando un piccolo server che contiene dati (principalmente dati video e di immagini, oltre ad alcuni documenti) per il progetto su cui il nostro gruppo sta lavorando in un momento. Storicamente, al termine di un progetto di ricerca, i dati finiscono casualmente in un archivio su un disco rigido, o una grande pila di DVD (o CD ai vecchi tempi) e / o alcuni dei video finiti nelle cassette DV Sony o addirittura Nastri VHS (questo laboratorio è attivo dai primi anni '90), O una miscela di tutto quanto sopra ...

Domanda: Qual è il modo migliore per (1) consolidarli TUTTI nello stesso formato E supporto di memorizzazione e (2) qual è il mezzo migliore per l'archiviazione a lungo termine di tali dati per un accesso molto occasionale (diciamo, oltre 30 anni?)? Purtroppo non abbiamo un budget a livello aziendale (siamo solo un laboratorio di circa 10 persone), quindi non possiamo fare cose che costano centinaia di migliaia di dollari.

Grazie!

PS Considerando che i nostri vecchi video e immagini hanno una risoluzione minore, ma quelli recenti sono enormi, penso che stiamo parlando di 30 ~ 40 TB per i dati molto vecchi, altri 10 ~ 20 TB per i dati recenti, quindi aggiunte annuali di circa 5 TB .

Risposte:


22

Sfortunatamente, non esiste un modo migliore per te. L'archiviazione trentennale dei media digitali è un problema molto difficile e richiede investimenti di routine. Gli unici formati che possono essere letti in 30 anni sono ASCII e UTF8, che non sono formati video. I formati di archiviazione cambiano, gli 8 nastri bobina a bobina che usavamo 30 anni fa sono quasi impossibili da leggere in questi giorni anche se i dati sono ancora sul nastro (c'è una storia interessante sulla NASA che ricostruisce un'unità a nastro di 40 anni per accedere ad alcuni nastri dati Apollo recentemente recuperati / scoperti). La tua scommessa migliore è impegnarsi a valutazioni periodiche, direi ogni 5 anni, del tuo ambiente di archiviazione con budget sufficiente per portare vecchi formati in formati più recenti.

Probabilmente lo sai meglio di me, ma il panorama video sta cambiando rapidamente. La modifica online in tempo reale è ora possibile, dove era possibile farlo solo con un kit davvero buono anche 10 anni fa. Chissà come saranno le cose tra 30 anni.

  • Imposta la finestra dell'archivio per 5 anni.
    • Nell'immediato dovrebbe bastare un array di archiviazione di grandi dimensioni (
      • un disco grande e lento da 50 TB può essere acquistato per meno di $ 70.000, probabilmente ben al di sotto.
      • Un'unità nastro LTO5 e 50 nastri (ben oltre i 50 TB) possono essere acquistati per meno di $ 15.000.
  • In quale formato memorizzi il tuo video dipende da te.
  • Inizia a trovare e convertire tutte le tue cose più vecchie in questo nuovo spazio di archiviazione.
  • Alla fine di 5 anni, fai un'altra valutazione completa del tuo ambiente di archiviazione.
    • Quali formati stai usando?
    • Quali sono i formati più recenti?
    • Quali codec sembrano essere vicoli ciechi e quali supporti hai archiviato codificato in quel modo?
    • Decidi come migrare ai metodi di archiviazione più recenti (formati di dati, disco / nastro / qualcos'altro) e spendi in modo appropriato.
  • Ripeti 6 volte.

Questo dovrebbe portarti a 30 anni.


+1, se stai davvero cercando di essere economico, probabilmente puoi cavartela ogni 10 anni. Un disco ATA-66 e 100 era l'HD preferito da un decennio fa e ci sono ancora tecnologie in giro per connettersi a quelli. Ma ci sono già dei computer che mancano di intestazioni IDE, la tecnologia decennale sta diventando incerta.
Chris S,

6
+1 per buoni punti sulla copia, ma -1 per affermare che i formati diventeranno illeggibili. Una volta che i dati sono disponibili su un supporto copiabile, è probabile che questi file non diventino riproducibili se non in un formato MOLTO strano. L'archiviazione su qualcosa di molto mainstream come MPEG2 è estremamente probabile che sia un formato durevole. La transcodifica di video con perdita di dati è un processo con perdita di dati. Non dovrebbe essere fatto. Non ci costa molto per mantenere un codec video tradizionale ...
Paul McMillan,

@Paul Grazie per i suggerimenti. L'ultima volta che ho frequentato regolarmente persone video è stato 7 anni fa, quindi sono arrugginito.
sysadmin1138

Grazie mille per la valutazione dettagliata e suggerimenti! Faremo del nostro meglio con il nostro budget IT purtroppo limitato. Sono contento che tutti voi e serverfault.com sia qui per aiutarvi.
hpy

sì, abbiamo trovato un modo. Tuttavia, non ho problemi a riprodurre file AVI di 17 anni da Windows 3.1 giorni. Il trucco sta nella scelta dei formati che sono già ampiamente utilizzati.
Paul McMillan,

11

Sono totalmente d'accordo con il post di sysadmin1138 in ogni modo, tranne un avvertimento: non credo che avrai il budget per realizzare davvero quello che vuoi.

Ci sono 5 funzioni principali che devi creare;

  • una politica di catalogo e di contenuto standard - So che vuoi archiviare tutto in un formato, ma dovresti davvero prendere in considerazione due - PDF per immagini e H.264 per video - entrambi sono formati di supporto a lungo termine con codice multipiattaforma che quasi certamente essere supportato da una parte o dall'altra per 25-50 anni nella loro forma attuale semplicemente a causa dell'uso esistente in tutto il mondo.
  • un catalogo o CMS per indicizzare e pubblicare il contenuto.
  • un sistema di "ingest dei contenuti": questo richiederà tutti i tuoi media, pacchetto, codifica, archivia e aggiorna il catalogo per ogni nuovo contenuto. Sarà inoltre necessario un controllo di qualità dei contenuti manuale o automatizzato.
  • un archivio di contenuti primario - questo avrà due blocchi di archiviazione principali; uno piccolo per contenere il contenuto di origine mentre viene transcodificato / controllato e un blocco molto più grande per mantenere il contenuto 'vicino'. Questo è uno dei pochi usi validi per RAID 6 che ho incontrato, ma prova a usare dischi di qualità aziendale che hanno un "ciclo di lavoro" 24x365 qui.
  • sistema di backup a lungo termine: è qui che verranno spesi i soldi veri, è necessario selezionare un fornitore che offre funzionalità di backup realmente a lungo termine. Se lo facessi in questo momento, continuerei a utilizzare il nastro su disco esclusivamente per motivi di longevità dei dati, forse da parte di IBM in quanto hanno molta esperienza in questo settore. È inoltre necessario considerare che è necessario eseguire regolarmente ripristini su nastro e anche verifiche dei dati, il che significa che sarà necessario un terzo blocco di archiviazione almeno grande quanto il nastro più grande che si possiede - e ovviamente anche i sistemi da verificare. Inoltre, dovrai assicurarti che il software di backup che utilizzi rimanga in uso anche per molto tempo, qualcosa come TAR su * nix probabilmente sarà in circolazione per un po ', ma potrebbe non darti funzionalmente quello che vuoi, quindi assicurarsi che questo non venga trascurato dal fornitore del nastro.

Quindi quello che vuoi fare può essere fatto, l'ho fatto io stesso un numero di volte negli ultimi due decenni o giù di lì - ma nessuno era economico, temo.

In bocca al lupo.


PDF per immagini sembra un modo piuttosto orribile per farlo. Sì, assolutamente PDF per documenti, ma mantieni le immagini come tiff o JPEG a seconda del formato di output. È improbabile che la capacità di leggerli scompaia.
Paul McMillan,

Grazie per i suggerimenti! Se potessi contrassegnare due risposte accettate lo farei per questo. :)
hpy

1
va bene penyuan, 1138 e sono gemme;)
Chopper3

2
Onestamente, la difficoltà con qualsiasi tipo di sistema CMS è che è probabilmente la prima e la più obsoleta parte di un sistema. Sarebbe quasi meglio richiedere a tutti di scrivere un file di testo ASCII con alcune descrizioni di base e memorizzarlo con i dati non elaborati. Qualsiasi CMS o sistema automatizzato invecchierà su una scala di alcuni anni.
Paul McMillan,

3

Gli altri hanno dato buoni consigli su come eseguire il backup dei file multimediali. Ti suggerirei di passare un po 'di tempo a guardare la biblioteca delle linee guida del congresso:

http://www.digitalpreservation.gov/formats/index.shtml

Si potrebbe anche considerare la costruzione di un array ZFS whitebox economico. Probabilmente potresti fare qualcosa per soddisfare le tue esigenze per meno di $ 10k. Man mano che le unità muoiono, sostituiscile con altre più grandi e quindi la tua capacità di archiviazione aumenta man mano che generi dati. Questo probabilmente ti farebbe andare avanti per un po ', e puoi invecchiarlo con un dispositivo di capacità superiore. Il vantaggio è che i tuoi dati sono online (e quindi è possibile accedervi se necessario), ed è relativamente ben protetto contro bitrot, un problema serio quando hai così tanti dati.

Un'opzione di costruzione decente è stata messa qui:

http://www.zfsbuild.com/


2

Per quanto sia difficile per i tecnologi, consiglierei di interrompere immediatamente le riflessioni su dischi e tecnologia. Suddividere il problema aziendale in cose sulle quali devi prendere decisioni.

Esempio:

  • Come hai intenzione di gestire la conversione di formati di nastro digitali analogici / vari in supporti digitali che possono essere archiviati su una sorta di memoria digitale?
  • Come gestirai il contenuto e i metadati associati? La memorizzazione è semplice: potresti mettere tutto sul nastro LTO e archiviarlo in una vecchia miniera di sale, ma non avresti accesso ai dati.
  • Stai reinventando la ruota? Se sei in un'università, esistono già soluzioni per la gestione dei contenuti disponibili centralmente? O se hai bisogno di acquistare / costruire la tua gestione dei contenuti, esiste un'infrastruttura centralizzata di cui puoi acquistare un pezzo? (Nastro, archiviazione oggetti, SAN)
  • Quali sono i reali requisiti aziendali? Cosa vuoi davvero mantenere e perché? Spesso quando si scava davvero nel cuore della questione, i reali requisiti di conservazione a lungo termine si applicano in realtà solo a un piccolo sottoinsieme di dati.

1

Tenere presente che se si memorizzano i dati in un formato con perdita, e poi si converte in un altro formato con perdita, e poi in un altro, la qualità del video diminuirà con ogni transizione.

Quanto segue parla di audio, ma lo stesso vale generalmente:

Puoi convertire qualsiasi formato audio in Ogg Vorbis. Tuttavia, la conversione da un formato con perdita, come MP3, a un altro formato con perdita, come Vorbis, è generalmente una cattiva idea. Entrambi gli encoder MP3 e Vorbis raggiungono rapporti di compressione elevati eliminando parti della forma d'onda audio che probabilmente non sentirai. Tuttavia, i codec MP3 e Vorbis sono molto diversi, quindi ognuno di essi getterà via diverse parti dell'audio, anche se c'è sicuramente qualche sovrapposizione. La conversione di un MP3 in Vorbis implica la decodifica del file MP3 in un formato non compresso, come WAV, e la sua ricompressione utilizzando l'encoder Ogg Vorbis. L'MP3 decodificato mancherà le parti dell'audio originale che l'encoder MP3 ha scelto di scartare. L'encoder Ogg Vorbis eliminerà quindi altri componenti audio quando comprime i dati. Nel migliore dei casi, il risultato sarà un file Ogg che sembra lo stesso del tuo MP3 originale, ma è molto probabile che il file risultante suonerà peggio del tuo MP3 originale. In nessun caso otterrai un file che suona meglio dell'MP3 originale.

Dal momento che molti lettori musicali possono riprodurre sia file MP3 che Ogg, non vi è alcun motivo per cui si debba cambiare tutti i file in un formato o nell'altro. Se ti piace Ogg Vorbis, ti consigliamo di utilizzarlo quando esegui la codifica da fonti audio originali e senza perdita di dati (come i CD). Quando esegui la codifica da originali, scoprirai che puoi creare file Ogg più piccoli o di migliore qualità (o entrambi) rispetto ai tuoi MP3.

(Se devi assolutamente convertire da MP3 in Ogg, ci sono diversi script di conversione disponibili su Freshmeat.)

http://www.vorbis.com/faq/#transcode

Quindi probabilmente è meglio scegliere un formato senza perdita, perché una volta che hai scelto un formato con perdita, sei bloccato con esso.


3
Il video senza perdita non è attualmente pratico per l'archiviazione. È semplicemente troppo costoso archiviare concerti al minuto di filmati. Scegli un codec con perdita di dati di cui sei ora ampiamente utilizzato e lasciaci i tuoi contenuti multimediali.
Paul McMillan,

Grazie per il buon punto sull'assenza di perdita, ci penseremo sicuramente su questo.
hpy,

1

Forse c'è qualcosa che mi manca, non potresti codificare tutto usando un formato aperto in cui è disponibile il codice sorgente per i codec, e poi incollare tutto su Amazon S3?

In questo modo Amazon deve preoccuparsi dell'effettiva memorizzazione dei dati e, a meno che non ci siano computer in grado di compilare C / C ++ in 30 anni, sarai in grado di ottenere le informazioni ...

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.