Quale supporto utilizzare per l'archiviazione dei dati a lungo termine, a volume elevato?


59

Questa domanda è stata ispirata da https://superuser.com/questions/374386/how-to-store-and-preserve-lots-of-data . Ci sono state altre domande simili, ma nessuna con gli stessi criteri.

Queste sono due domande in una.

  1. Come archiviate i documenti finanziari / critici che dovrebbero sopravvivere a tutto tranne che un incendio e dovrebbero essere disponibili per decenni?
  2. Diciamo che voglio archiviare foto / video di famiglia e voglio che le persone siano in grado di trovarle in archivio tra 100 anni e che siano ancora in grado di usarle. Come sarebbe fatto?

criteri

  1. A lungo termine significa oltre 30 anni garantiti . 100+ anni in media. [Se ciò non è pratico, utilizzare la soluzione più vicina]
  2. Alto volume significa un paio di terabyte.
  3. Le risposte possono essere soluzioni "senza compromessi / industriali" o soluzioni pratiche per l'home office / utenti di piccole imprese.
  4. Il supporto non sarà attivo durante l'intervallo di tempo. (ad esempio, se si suggeriscono dischi rigidi, non gireranno).
  5. Inoltre, non c'è alcuna aspettativa di dover leggere questi archivi. Sono lì per scopi di emergenza o "per le generazioni future".
  6. Non dovrebbe richiedere manutenzione (se possibile).

I miei pensieri:

  1. I CD-R / DVD-R mi hanno dimostrato, anche a breve termine, di essere un terribile supporto per i backup. Sembrano molto fragili e sembrano perdere i loro dati in brevissimo tempo anche quando sono in ottime condizioni.
  2. Non posso fare a meno di pensare che archiviare i dati su un paio di hdd da 1 TB e poi aspettarmi che si girino correttamente dopo un decennio o due dopo sia un'idea terribile. Ho sbagliato?
  3. Le unità a nastro industriali sembrano un'opzione praticabile?

Non sono un esperto, ma direi nastro. Questa domanda potrebbe essere migliore su Server Fault, ma onestamente non penso che si adatti perfettamente a nessuno dei due, quindi mi rifiuto di votare. È una buona domanda e dovrebbe vivere da qualche parte.
Shinrai,

Sono d'accordo @Shinrai. Sono lieto di spostarlo da qualche altra parte se qualcuno può commentare dove dovrebbe vivere.
user606723

4
Se non vuoi scendere a compromessi, esiste una tecnologia esistente progettata per durare almeno 40.000 anni senza alcun intervento: voyager.jpl.nasa.gov/spacecraft/goldenrec.html
fixer1234

Il futuro è nei cristalli, può potenzialmente immagazzinare 360 ​​TB e durare un milione di anni. Vedi: 5D 'Superman memory crystal' annuncia la memorizzazione illimitata di dati a vita
Kenorb,

Risposte:


20

Carta

A parte l'inchiostro per archivio su carta per archivio in custodia sigillata, nessun supporto corrente ha una durata media di 100 anni senza alcun tipo di manutenzione.

Documento d'archivio

Le carte più vecchie erano realizzate con materiali come lino e canapa, e quindi sono naturalmente alcaline. o privi di acidi, quindi durano centinaia di anni. La carta del 20 ° secolo e la carta più moderna di solito sono fatte di pasta di legno, che è spesso acida e non si conserva per lunghi periodi.

Inchiostri d'archivio

Questi inchiostri permanenti non sbiaditi sono resistenti alla luce, al calore e all'acqua e non contengono impurità che possono influire sulla permanenza della carta o dei materiali fotografici. Gli inchiostri attinici neri sono chimicamente stabili e presentano un pigmento inorganico che non tende ad assorbire impurità come altri pigmenti di inchiostro.

Archiviazione ridondante

Torvalds ha detto una volta

Solo i WIMP usano il backup su nastro: _real_ men carica semplicemente le loro cose importanti su ftp e lascia che il resto del mondo rispecchi

Il che suggerisce che non dovresti fare affidamento su una singola copia su un singolo supporto.

Non supporti magnetici?

http://www.zdnet.com/blog/perlow/the-bell-tolls-for-your-magnetic-media/9364?tag=content;siu-container

  • Esempio tipico di degrado irrecuperabile dei media magnetici.
  • Problemi di hardware e software (e formati di dati)

Sistemi non specializzati

Nel 2002, c'erano grandi paure che i dischi sarebbero diventati illeggibili poiché i computer in grado di leggere il formato erano diventati rari e le unità in grado di accedere ai dischi ancora più rari. A parte la difficoltà di emulare il codice originale, un grosso problema era che le immagini fisse erano state memorizzate sul disco laser come video analogico a singolo fotogramma,

http://en.wikipedia.org/wiki/BBC_Domesday_Project#Preservation

Conservazione personale a lungo termine

http://www.zdnet.com/blog/storage/long-term-personal-data-storage/376

  • sia i media che il formato possono diventare illeggibili.
  • stampare su carta priva di acidi con inchiostri a pigmenti e conservare in luogo fresco, asciutto e buio.
  • Il primo problema è scegliere i formati di dati per la massima longevità.
  • Evitare l'uso di formati proprietari
  • USCSF sta trasferendo tutti i suoi nastri originali - molti in formati ormai obsoleti come BetaSP e VHS - nel formato motionJPEG2000 a 75 Mbit

1
1) Potete fornire dettagli al riguardo? Le normali copie cartacee non dureranno così a lungo? (Le foto di 100 anni fa sembrano andare bene, AFAIK). 2) Se nessun supporto dati attuale durerà così a lungo, suggerisco di utilizzare la soluzione armadio possibile. È deprimente che tra decenni non saremo in grado di guardare attraverso vecchie scatole e aspettarci di essere in grado di guardare nessuna delle nostre vecchie foto dimenticate, ecc.
user606723

@ user606723: vedi risposta aggiornata
RedGrittyBrick

Ho pensato che la stampa laser su carta priva di acidi sarebbe un buon modo per archiviare dati (pochi megabyte per pagina) che ha un'alta probabilità di essere leggibile tra 100-200 anni. Il software per leggerlo sarebbe relativamente semplice e si presume che gli scanner saranno sempre disponibili, quindi il formato (fintanto che non è troppo contorto) non "andrebbe mai via" al di là della capacità di recupero di un dilettante competente.
Daniel R Hicks,

64

Risposta breve

È impossibile garantire un lungo periodo a causa dell'entropia (chiamata anche morte!). I dati digitali decadono e muoiono, proprio come qualsiasi altra cosa nell'universo. Ma può essere rallentato.

Al momento non esiste un modo a prova di errore e scientificamente provato per garantire oltre 30 anni di freddo archivio di dati. Alcuni progetti mirano a farlo, come il progetto Rosetta Disks del museo Long Now , sebbene siano ancora molto costosi e con una bassa densità di dati (circa 50 MB).

Nel frattempo, è possibile utilizzare supporti ottici resilienti scientificamente provati per la conservazione a freddo come Blu-ray Disc di tipo HTL come Panasonic, o DVD + R di qualità archivistica come Verbatim Gold Archival, e conservarli in scatole a tenuta d'aria in un punto debole (evitare alta temperatura) e fuori dalla luce.

Siate inoltre RIDONDANTI : fate più copie dei vostri dati (almeno 4) e calcolate gli hash per verificare regolarmente che tutto vada bene e ogni pochi anni dovreste riscrivere i vostri dati su nuovi dischi. Inoltre, usa molti codici di correzione degli errori , ti permetteranno di riparare i tuoi dati corrotti!

Risposta lunga

Perché i dati sono danneggiati nel tempo? La risposta sta in una parola: entropia . Questa è una delle forze primarie e inevitabili dell'universo, che rende i sistemi sempre meno ordinati nel tempo. La corruzione dei dati è esattamente questo: un disordine nell'ordine dei bit. Quindi, in altre parole, l'Universo odia i tuoi dati .

Combattere l'entropia è esattamente come combattere la morte: probabilmente non ci riuscirai mai. Ma puoi trovare il modo di rallentare la morte, proprio come puoi rallentare l'entropia. Puoi anche ingannare l'entropia riparando le corruzioni (in altre parole: non puoi fermare le corruzioni, ma puoi ripararle dopo che si sono verificate se hai preso le misure in anticipo!). Proprio come qualsiasi cosa sulla vita e sulla morte, non esiste un proiettile magico, né una soluzione per tutti, e le migliori soluzioni richiedono di impegnarsi direttamente nella cura digitale dei dati. E anche se fai tutto correttamente, non sei sicuro di proteggere i tuoi dati, massimizzi solo le tue possibilità.

Ora per le buone notizie: ora ci sono modi abbastanza efficienti per conservare i tuoi dati, se combini supporti di archiviazione di buona qualità e buone strategie di archiviazione / cura : dovresti progettare per il fallimento .

Quali sono le buone strategie di cura? Andiamo subito a una cosa: la maggior parte delle informazioni che troverai riguarderanno i backup, non l'archiviazione. Il problema è che la maggior parte delle persone trasferirà le proprie conoscenze sulle strategie di backup in archivio, e quindi molti miti sono ora comunemente ascoltati. In effetti, l'archiviazione dei dati per alcuni anni (backup) e l'archiviazione dei dati per il tempo più lungo possibile in almeno decenni (archivio) sono obiettivi totalmente diversi e richiedono quindi strumenti e strategie diversi.

Fortunatamente, ci sono un sacco di ricerche e risultati scientifici, quindi consiglio di fare riferimento a quegli articoli scientifici piuttosto che su forum o riviste. Qui, riassumerò alcune delle mie letture.

Inoltre, diffidare di affermazioni e studi scientifici non indipendenti , sostenendo che tale o tale supporto di memorizzazione è perfetto. Ricorda il famoso progetto BBC Domesday: «Digital Domesday Book dura 15 anni e non 1000» . Ricontrolla sempre gli studi con documenti veramente indipendenti e, se non ce ne sono, supponi sempre che il supporto di archiviazione non sia buono per l'archiviazione.

Chiariamo cosa stai cercando (dalla tua domanda):

  • Archivio a lungo termine : vuoi conservare copie dei tuoi dati "personali" sensibili e irriproducibili. L'archiviazione è fondamentalmente diversa da un backup , come ben spiegato qui : i backup sono per dati tecnici dinamici che vengono regolarmente aggiornati e quindi devono essere aggiornati in backup (ad es. Sistema operativo, layout delle cartelle di lavoro, ecc.), Mentre gli archivi sono dati statici che si sarebbe probabilmente scrivere solo una volta e solo letto da tanto in tanto . Gli archivi sono per dati temporanei , generalmente personali.

  • Celle frigorifere : si desidera evitare il più possibile la manutenzione dei dati archiviati. Questo è un GRANDE vincolo, in quanto significa che il supporto deve utilizzare componenti e una metodologia di scrittura che rimanga stabile per molto tempo, senza alcuna manipolazione da parte dell'utente e senza richiedere alcuna connessione a un computer o all'alimentazione elettrica.

Per facilitare la nostra analisi, studiamo prima le soluzioni di conservazione a freddo, quindi le strategie di archiviazione a lungo termine.

Mezzi di conservazione frigoriferi

Abbiamo definito sopra quale dovrebbe essere un buon supporto di memorizzazione a freddo: dovrebbe conservare i dati per lungo tempo senza alcuna manipolazione richiesta (ecco perché si chiama "freddo": puoi semplicemente memorizzarli in un armadio e non è necessario collegarli a un computer per conservare i dati).

La carta può sembrare il supporto di memorizzazione più resistente sulla terra, perché spesso troviamo manoscritti molto antichi di epoche antiche. Tuttavia, la carta presenta grossi inconvenienti: in primo luogo, la densità dei dati è molto bassa (non può contenere più di ~ 100 KB su una carta, anche con caratteri minuscoli e strumenti informatici) e si degrada nel tempo senza alcun modo di monitorarla: la carta , proprio come i dischi rigidi, soffrono di corruzione silenziosa. Ma mentre è possibile monitorare corruzioni silenziose sui dati digitali, non è possibile sulla carta. Ad esempio, non puoi garantire che un'immagine conserverà gli stessi colori solo per un decennio: i colori si degraderanno e non avrai modo di trovare quali fossero i colori originali. Certo, puoi curare le tue foto se sei un professionista nel ripristino delle immagini, ma ciò richiede molto tempo, mentre con i dati digitali, puoi automatizzare questo processo di cura e restauro.

Hard Disk (HDD) sono noti per avere una vita media di 3 a 8 anni: non si limitano a degradano nel tempo, essi sono garantiti per poi morire (cioè: inaccessibile). Le seguenti curve mostrano questa tendenza per tutti gli HDD a morire a un ritmo sbalorditivo:

Curva della vasca che mostra l'evoluzione del tasso di guasto dell'HDD dato il tipo di errore (applicabile anche a qualsiasi dispositivo progettato):

curva-HDD1

Curva che mostra il tasso di guasto dell'HDD, tutti i tipi di errore uniti: curva HDD2

Fonte: Backblaze

Puoi vedere che ci sono 3 tipi di HDD relativamente al loro fallimento: quelli che muoiono rapidamente (ad esempio: errore di produzione, HDD di cattiva qualità, guasti alla testa, ecc.), Quelli a tasso di morte costante (buona produzione, muoiono per vari " normali "ragioni, questo è il caso della maggior parte degli HDD), e infine quelli robusti che vivono un po 'più a lungo della maggior parte degli HDD e alla fine muoiono subito dopo quelli" normali "(ad esempio: HDD fortunati, non troppo usati, condizioni ambientali ideali, ecc.). Pertanto, sei sicuro che il tuo HDD morirà.

Perché gli HDD muoiono così spesso? Voglio dire, i dati sono scritti su un disco magnetico e il campo magnetico può durare decenni prima di scomparire. Il motivo per cui muoiono è perché il supporto di memorizzazione (disco magnetico) e l' hardware di lettura (scheda elettronica + testa rotante) sono accoppiati : non possono essere dissociati, non è possibile estrarre il disco magnetico e leggerlo con un'altra testa, perché prima la scheda elettronica (che converte i dati fisici in digitale) è diversa per quasi ogni HDD (anche dello stesso marchio e riferimento, dipende dalla fabbrica di origine) e il meccanismo interno con la testa rotante è così intricato che al giorno d'oggi è impossibile per un essere umano posizionare perfettamente una testa rotante su dischi magnetici senza ucciderli.

Inoltre, gli HDD sono noti per smagnetizzarsi nel tempo se non utilizzati (incluso SSD). Pertanto, non puoi semplicemente archiviare i dati su un disco rigido, archiviarli in un armadio e pensare che manterrà i dati senza alcuna connessione elettrica: devi collegare il tuo HDD a una fonte elettrica almeno una volta all'anno o per coppie di anni . Pertanto, gli HDD non sono chiaramente adatti per la conservazione a freddo.

Nastri magnetici : sono spesso descritti come il punto di partenza per le esigenze di backup e per estensione per l'archiviazione. Il problema con i nastri magnetici è che sono MOLTO sensibili: le particelle di ossido magnetico possono essere facilmente deteriorate dal sole, dall'acqua, dall'aria, dai graffi, smagnetizzate dal tempo o da qualsiasi dispositivo elettromagnetico o semplicemente cadere nel tempo o stampare . Ecco perché di solito vengono utilizzati solo nei data center da professionisti. Inoltre, non è mai stato dimostrato che possano conservare i dati per più di un decennio. Quindi, perché sono spesso consigliati per i backup? Perché erano a buon mercato: ai tempi, costava da 10 a 100 volte in meno per usare i nastri magnetici rispetto agli HDD, e gli HDD tendevano a essere molto meno stabili di adesso. Pertanto, i nastri magnetici sono principalmente consigliati per i backup a causa della convenienza economica, non a causa della resilienza, che è ciò che ci interessa di più quando si tratta di archiviare i dati.

Le schede CompactFlash e Secure Digital (SD) sono note per essere abbastanza robuste e robuste, in grado di sopravvivere a condizioni catastrofiche .

Le schede di memoria nella maggior parte delle fotocamere sono praticamente indistruttibili, secondo la rivista Digital Camera Shopper. Sono sopravvissuti cinque formati di schede di memoria bolliti, calpestati, lavati e inzuppati nel caffè o nella cola.

Tuttavia, come qualsiasi altro supporto a base magnetica, si basa su un campo elettrico per conservare i dati e, quindi, se la scheda si esaurisce, i dati potrebbero andare completamente persi. Pertanto, non è perfetto per l'archiviazione a freddo (poiché è necessario riscrivere occasionalmente tutti i dati sulla scheda per aggiornare il campo elettrico), ma può essere un buon supporto per i backup e l'archiviazione a breve o medio termine.

Supporti ottici: i supporti ottici sono una classe di supporti di memorizzazione che si affidano al laser per leggere i dati, come CD, DVD o Blu-ray (BD). Questo può essere visto come un'evoluzione della carta, ma scriviamo i dati in una dimensione così piccola, che avevamo bisogno di un materiale più preciso e resistente della carta, e i dischi ottici sono proprio questo. I due maggiori vantaggi dei supporti ottici è che il supporto di memorizzazione è disaccoppiato dall'hardware di lettura (ovvero, se il tuo lettore DVD non funziona, puoi sempre acquistarne un altro per leggere il tuo disco) e che si basa sul laser, che lo rende universale e a prova di futuro (cioè, fintanto che sai come realizzare un laser, puoi sempre modificarlo per leggere i pezzi di un disco ottico mediante emulazione, proprio come CAMILEON ha fatto per il progetto BBC Domesday ).

Come ogni tecnologia, le nuove iterazioni non solo offrono una maggiore densità (spazio di archiviazione), ma anche una migliore correzione degli errori e una migliore resilienza contro il degrado ambientale (non sempre, ma generalmente vero). Il primo dibattito sull'affidabilità del DVD è stato tra DVD-R e DVD + R, e anche se i DVD-R sono ancora comuni al giorno d'oggi, i DVD + R sono riconosciuti come più affidabili e precisi . Ora ci sono dischi DVD di qualità da archivio, appositamente realizzati per la conservazione a freddo, sostenendo che possono resistere per un minimo di ~ 20 anni senza alcuna manutenzione:

Il DVD-R Verbatim Gold Archival [...] è stato valutato come il DVD-R più affidabile in un accurato stress test a lungo termine da parte della rinomata rivista tedesca c't (c't 16/2008, pagg. 116-123 ) [...] raggiungendo una durata minima di 18 anni e una durata media da 32 a 127 anni (a 25 ° C, 50% di umidità). Nessun altro disco si avvicina a questi valori, il secondo miglior DVD-R ha una durata minima di soli 5 anni.

Da LinuxTech.net .

Inoltre, alcune aziende specializzate in molto lungo di archiviazione termine DVD e ampiamente a commercializzare, come il modello M-Disc dal Millenniata o DataTresorDisc, sostenendo che essi possono conservare i dati per oltre 1000 anni, e verificati da alcuni (non indipendenti) studi (da 2009) tra gli altri meno scientifici .

Tutto questo sembra molto promettente! Sfortunatamente, non ci sono abbastanza studi scientifici indipendenti per confermare queste affermazioni e le poche disponibili non sono così entusiaste:

L'umidità (80% RH) e la temperatura (80 ° C) hanno accelerato l'invecchiamento su diversi DVD nell'arco di 2000 ore (circa 83 giorni) di test con il controllo regolare della leggibilità dei dati: L'umidità e la temperatura hanno accelerato l'invecchiamento su diversi marchi di DVD

Traduzione dall'istituto francese per l'archiviazione dei dati digitali (Archives de France), studio dal 2012.

Il primo grafico mostra il DVD con una lenta evoluzione della degradazione. Il secondo DVD con curve di degrado rapido. E il terzo è per DVD speciali "a lungo termine" come M-Disc e DataTresorDisc. Come possiamo vedere, le loro prestazioni non si adattano perfettamente alle affermazioni, essendo inferiori o alla pari con i DVD standard di qualità non archivistica!

Tuttavia, i dischi ottici inorganici come M-Disc e DataTresorDisc ottengono un vantaggio: sono abbastanza insensibili al degrado della luce:

Invecchiamento accelerato con luce (750 W / m²) per 240 ore: Leggero invecchiamento accelerato su diversi marchi di DVD

Questi sono grandi risultati, ma un DVD di qualità archivistica come il Verbatim Gold Archival raggiunge le stesse prestazioni e, inoltre, la luce è il parametro più controllabile per un oggetto: è abbastanza facile mettere il DVD in una scatola chiusa o un armadio, e quindi eliminando qualsiasi possibile impatto della luce. Sarebbe molto più utile ottenere un DVD molto resistente alla temperatura e all'umidità rispetto alla luce.

Lo stesso gruppo di ricerca ha anche studiato il mercato dei Blu-ray per vedere se esistesse un marchio con un buon supporto per la conservazione a freddo a lungo termine. Ecco la loro scoperta:

L'umidità e la temperatura hanno accelerato l'invecchiamento su diversi marchi Blu-ray, con gli stessi parametri dei DVD: temp-bd

Invecchiamento accelerato leggero su diversi marchi BluRays, stessi parametri: light-bd

Tradotto da questo studio di Archives de France, 2012.

Due riassunti di tutti i risultati (in francese) qui e qui .

In definitiva, il miglior disco Blu-ray (di Panasonic) si è comportato in modo simile al miglior DVD di qualità archivistica nel test di umidità + temperatura, pur essendo praticamente insensibile alla luce! E questo disco Blu-ray non è nemmeno di qualità archivistica. Inoltre, i dischi Blu-ray utilizzano un codice di correzione degli errori migliorato rispetto ai DVD (essi stessi utilizzano una versione avanzata rispetto ai CD), il che riduce ulteriormente i rischi di perdita di dati. Quindi, sembra che alcuni dischi BluRay possano essere un'ottima scelta per la conservazione a freddo.

E in effetti, alcune aziende stanno iniziando a lavorare su dischi Blu-ray di archiviazione ad alta densità di grado archivistico come Panasonic e Sony, annunciando che saranno in grado di offrire da 300 GB a 1 TB di memoria con una durata media di 50 anni. Inoltre, le grandi aziende si stanno orientando verso supporti ottici per la conservazione a freddo (perché consumano molte meno risorse poiché è possibile conservarle a freddo senza alcuna fornitura elettrica), come Facebook che ha sviluppato un sistema robotico per utilizzare i dischi Blu-ray come "freddo archiviazione " per i dati a cui il loro sistema accede raramente.

Iniziativa archivistica di Long Now: ci sono altre iniziative interessanti come il progetto Rosetta Disc del museo Long Now , che è un progetto per scrivere pagine della Genesi in scala microscopica in tutte le lingue sulla terra in cui la Genesi è stata tradotta. Questo è un grande progetto, che è il primo a offrire un supporto che consente di archiviare 50 MB per celle frigorifere davvero a lungo termine (poiché è scritto in carbonio) e con accesso a prova di futuro poiché è necessario solo un ingranditore per accedere al dati (nessuna strana specifica di formato né seccature tecnologiche da gestire come il raggio viola del Blu-ray, solo bisogno di una lente d'ingrandimento!). Tuttavia, questi sono ancora fatti manualmente e quindi si stima che costino circa $ 20.000, il che è un po 'troppo per uno schema di archiviazione personale immagino.

Soluzioni basate su Internet: Ancora un altro mezzo per conservare in frigorifero i tuoi dati è in rete. Tuttavia, le soluzioni di backup su cloud non sono adatte, per la preoccupazione principale che le società di cloud hosting potrebbero non vivere finché vorresti conservare i tuoi dati. Altre ragioni includono il fatto che il backup è terribilmente lento (poiché trasferisce via Internet) e la maggior parte dei provider richiede che i file esistano anche sul tuo sistema per tenerli online. Ad esempio, sia CrashPlan che Backblaze elimineranno definitivamente i file che non vengono almeno visti una volta sul computer negli ultimi 30 giorni, quindi se si desidera caricare i dati di backup memorizzati solo su dischi rigidi esterni, sarà necessario collegare il HDD USB almeno una volta al mese e sincronizzalo con il cloud per ripristinare il conto alla rovescia. Però, alcuni servizi cloud offrono di mantenere i tuoi file indefinitamente (purché paghi ovviamente) senza un conto alla rovescia, come SpiderOak. Quindi fai molta attenzione alle condizioni e all'utilizzo della soluzione di backup basata su cloud che scegli.

Un'alternativa ai fornitori di backup su cloud è quella di noleggiare il proprio server privato online e, se possibile, sceglierne uno con il mirroring / backup automatico dei dati in caso di guasti hardware dalla loro parte (alcuni addirittura ti garantiscono contro i dati persi nei loro contratti , ma ovviamente è più costoso). Questa è un'ottima soluzione, in primo luogo perché possiedi ancora i tuoi dati, e in secondo luogo perché non dovrai gestire i guasti dell'hardware, questa è la responsabilità del tuo host. E se un giorno il tuo host fallisce, puoi comunque recuperare i tuoi dati (scegli un host serio in modo che non si chiudano durante la notte ma ti avvisino in anticipo, forse puoi chiedere di inserirli nel contratto), e rehost altrove.

Se non vuoi preoccuparti di configurare il tuo server online privato e se puoi permetterlo, Amazon offre un nuovo servizio di archiviazione dei dati, chiamato Glacier . Lo scopo è esattamente quello di conservare a freddo i dati a lungo termine: quindi, costa molto archiviare i dati su un ghiacciaio, ma costa ancora di più recuperare questi dati, poiché questo servizio è realizzato per archiviare i dati fuori portata , per non conservare i dati a cui si desidera accedere spesso. Ciò significa che questo servizio cita i prezzi per la scrittura dei dati, ma anche per la loro lettura. Questo servizio ha un costo enorme, ma potrebbe essere un buon affare per alcuni dei tuoi dati più sensibili (ad esempio: se hai alcuni file di testo o immagini che sono MOLTO sensibili, poiché questo tipo di dati è solitamente di piccole dimensioni, non ti costerà molto da conservare in un ghiacciaio).

Carenze della conservazione a freddo : tuttavia, esiste un grande difetto in qualsiasi supporto di conservazione a freddo: non esiste un controllo di integrità, poiché i supporti di conservazione a freddo NON POSSONO controllare automaticamente l'integrità dei dati (possono semplicemente implementare schemi di correzione degli errori per "guarire" un po 'di il danno dopo la corruzione si è verificato, ma non può essere prevenuto né gestito automaticamente!) perché, al contrario, su un computer, non esiste un'unità di elaborazione per calcolare / giornalizzare / controllare e correggere il filesystem. Considerando che con un computer e più unità di archiviazione, è possibile verificare automaticamente l'integrità degli archivi e, se necessario, eseguire il mirroring automatico su un'altra unità se si verifica un danneggiamento in un archivio dati (purché si disponga di più copie dello stesso archivio).

Archivio a lungo termine

Anche con le migliori tecnologie attualmente disponibili, i dati digitali possono essere conservati a freddo solo per alcuni decenni (circa 20 anni). Pertanto, a lungo termine, non si può semplicemente fare affidamento sull'archiviazione a freddo: è necessario impostare una metodologia per il processo di archiviazione dei dati per garantire che i dati possano essere recuperati in futuro (anche con cambiamenti tecnologici) e che si minimizzino i rischi di perdere i tuoi dati. In altre parole, devi diventare il curatore digitale dei tuoi dati, riparare le corruzioni quando si verificano e ricreare nuove copie quando necessario.

Non ci sono regole infallibili, ma qui ci sono alcune strategie di cura stabilite , e in particolare uno strumento magico che renderà il tuo lavoro più semplice:

  • Principio di ridondanza / replica : la ridondanza è l'unico strumento in grado di ripristinare gli effetti dell'entropia , che è un principio basato sulla teoria dell'informazione. Per conservare i dati, è necessario duplicare questi dati. I codici di errore sono esattamente un'applicazione automatica del principio di ridondanza. Tuttavia, devi anche assicurarti che i tuoi dati siano ridondanti: più copie degli stessi dati su dischi diversi, più copie su supporti diversi (in modo che se un supporto fallisce a causa di problemi intrinseci, ci sono poche possibilità che anche gli altri su supporti diversi falliscano allo stesso tempo), ecc. In particolare , dovresti sempre avere almeno 3 copie dei tuoi dati, chiamati anche ridondanza 3-modulare in ingegneria, in modo che se le tue copie vengono danneggiate, puoi esprimere un voto a maggioranza semplice per riparare i tuoi file dalle tue 3 copie. Ricorda sempre il consiglio della bussola del marinaio:

È inutile portare due bussole, perché se uno va storto, non puoi mai sapere quale è corretta o se entrambi sono sbagliati. Prendi sempre una bussola o più di tre.

  • Correzione degli errori : questo è lo strumento magico che ti semplifica la vita e rende i tuoi dati più sicuri. I codici di correzione degli errori (ECC) sono un costrutto matematico che genererà dati che possono essere utilizzati per riparare i dati. Questo è più efficiente, perché gli ECC possono riparare molti più dati usando molto meno spazio di archiviazione rispetto alla semplice replica (ovvero, fare più copie dei tuoi file) e possono anche essere usati per verificare se il tuo file ha corruzione e persino individuare dove sono quelle corruzioni. In realtà, questa è esattamente un'applicazione del principio di ridondanza, ma in modo più intelligente della replica. Questa tecnica è ampiamente utilizzata in qualsiasi comunicazione a lungo raggio al giorno d'oggi, come 4G, WiMax e persino le comunicazioni spaziali della NASA. Sfortunatamente, sebbene gli ECC siano onnipresenti nelle telecomunicazioni, non sono in riparazione dei file, forse perché è un po 'complesso. Tuttavia, sono disponibili alcuni software, come il noto (ma ora vecchio) PAR2, DVD Disaster (che offre l'aggiunta di codici di correzione dell'errore sui dischi ottici) e pyFileFixity (che sviluppo in parte per superare le limitazioni e i problemi di PAR2). Esistono anche file system che implementano facoltativamente Reed-Solomon come ZFS per Linux o ReFS per Windows, che sono tecnicamente una generalizzazione di RAID5.

  • Controlla regolarmente l'integrità dei tuoi file: Hash i tuoi file e controllali di volta in volta (ad esempio, una volta all'anno, ma dipende dal supporto di archiviazione e dalle condizioni ambientali). Quando vedi che i tuoi file sono stati danneggiati, è tempo di riparare usando gli ECC che hai generato se lo hai fatto, e / o fare una nuova copia dei tuoi dati su un nuovo supporto di archiviazione. Il controllo dei dati, la riparazione della corruzione e l'esecuzione di nuove copie fresche è un ottimo ciclo di cura che garantirà la sicurezza dei dati. Il controllo in particolare è molto importante perché le copie dei tuoi file possono essere danneggiate in modo invisibile e se poi copi le copie che sono state manomesse, finirai con i file totalmente corrotti. Ciò è ancora più importante con i supporti di conservazione a freddo, come i dischi ottici, che NON POSSONO verificare automaticamente l'integrità dei dati (implementano già ECC per guarire un po ', ma non possono controllare né creare automaticamente nuove copie nuove, questo è il tuo lavoro!). Per monitorare le modifiche ai file, è possibile utilizzare lo script rfigc.py dipyFileFixity o altri strumenti UNIX come md5deep . È inoltre possibile controllare lo stato di integrità di alcuni supporti di memorizzazione come i dischi rigidi utilizzando strumenti come Hard Drive Sentinel o smartmontools open source .

  • Conserva i tuoi archivi su diverse posizioni (con almeno una copia fuori casa!) Per evitare eventi catastrofici nella vita reale come inondazioni o incendi. Ad esempio, un disco ottico al lavoro o un backup basato su cloud possono essere una buona idea per soddisfare questo requisito (anche se i fornitori di cloud possono essere chiusi in qualsiasi momento, purché si disponga di altre copie, si sarà al sicuro , i fornitori di cloud serviranno solo come archivio fuori sede in caso di emergenza).

  • Conservare in contenitori specifici con parametri ambientali controllati : per mezzi ottici, conservare lontano dalla luce e in una scatola a tenuta stagna per evitare l'umidità. Per dischi rigidi e schede SD, conservare in custodie antimagnetiche per evitare l'elettricità residua per manomettere l'unità. Puoi anche riporlo in una borsa / scatola ermetica e a tenuta stagna e conservare in un congelatore: le basse temperature rallentano l'entropia e puoi prolungare abbastanza la durata di vita di qualsiasi mezzo di conservazione del genere (assicurati solo che l'acqua abbia vinto non entrare dentro, altrimenti il ​​tuo mezzo morirà rapidamente).

  • Usa hardware di buona qualità e controllali in anticipo (ad esempio: quando acquisti una scheda SD, testa l'intera scheda con un software come HDD Scan per verificare che tutto sia a posto prima di scrivere i tuoi dati). Ciò è particolarmente importante per le unità ottiche, poiché la loro qualità può cambiare drasticamente la qualità dei dischi masterizzati, come dimostrato dallo studio Archives de France (un cattivo masterizzatore DVD produrrà DVD che dureranno molto meno).

  • Scegli con cura i tuoi formati di file: non tutti i formati di file sono resistenti alla corruzione, alcuni sono persino chiaramente deboli. Ad esempio, le immagini .jpg possono essere completamente rotte e illeggibili manomettendo solo uno o due byte. Lo stesso vale per gli archivi 7zip. Questo è ridicolo, quindi fai attenzione al formato dei file archiviati. Come regola generale, il testo semplice e chiaro è il migliore, ma se è necessario comprimerlo, utilizzare zip non solida e per le immagini, utilizzare JPEG2 (non ancora open-source ...). Maggiori informazioni e recensioni di curatori digitali professionisti qui , qui e qui .

  • Conservare insieme agli archivi di dati tutti i software e le specifiche necessari per leggere i dati. Ricorda che le specifiche cambiano rapidamente e quindi in futuro i tuoi dati potrebbero non essere più leggibili, anche se puoi accedere al file. Pertanto, dovresti preferire formati e software open source e archiviare il codice sorgente del programma lungo i tuoi dati in modo da poter sempre adattare il programma dal codice sorgente all'avvio da un nuovo sistema operativo o computer.

  • Molti altri metodi e approcci sono disponibili qui , qui e in varie parti di Internet.

Conclusione

Vi consiglio di usare ciò che potete avere, ma rispettate sempre il principio di ridondanza (fate 4 copie!), E controllate sempre regolarmente l'integrità (quindi dovete pre-generare un database di hash MD5 / SHA1 in anticipo) e creare nuovi nuovi copie in caso di corruzione. Se lo fai, puoi tecnicamente conservare i tuoi dati per tutto il tempo che desideri, qualunque sia il tuo supporto di archiviazione. Il tempo che intercorre tra ogni controllo dipende dall'affidabilità dei supporti di archiviazione: se si tratta di un disco floppy, controllare ogni 2 mesi, se si tratta di un Blu-ray HTL, controllare ogni 2/3 anni.

Ora in condizioni ottimali, consiglio per la conservazione a freddo di utilizzare dischi HTL Blu-ray o dischi DVD di tipo archivistico archiviati in scatole opache a tenuta stagna e conservati in un luogo fresco. Inoltre, è possibile utilizzare schede SD e provider basati su cloud come SpiderOak per archiviare copie ridondanti dei dati o persino dischi rigidi se sono più accessibili.

Usa molti codici di correzione degli errori , ti salveranno la giornata. Inoltre puoi fare più copie di questi file ECC (ma più copie dei tuoi dati sono più importanti delle copie multiple di ECC perché i file ECC possono ripararsi da soli!).

Tutte queste strategie possono essere implementate usando il set di strumenti che sto sviluppando (open source): pyFileFixity . Questo strumento è stato infatti avviato da questa discussione, dopo aver scoperto che non c'erano strumenti gratuiti per gestire completamente la fissità dei file. Inoltre, fai riferimento al readme e al wiki del progetto per ulteriori informazioni sulla fissità dei file e sulla cura digitale.

In ultima analisi, spero davvero che più ricerca e sviluppo saranno posti su questo problema. Questo è un grosso problema per la nostra società attuale, avendo sempre più dati digitalizzati, ma senza alcuna garanzia che questa massa di informazioni sopravviverà per più di qualche anno. È piuttosto deprimente e penso davvero che questo problema dovrebbe essere messo molto più in primo piano, in modo che questo diventi un punto di marketing per costruttori e aziende per creare dispositivi di archiviazione che possono durare per le generazioni future.

/ EDIT: leggi sotto per una pratica routine di cura .


6
Risposta eccezionale! Ciò richiede molti più voti.
bwDraco,

1
Hai intenzione di aggiungere ALTRE informazioni? Valuta di pubblicarlo come un libro di testo. :-)
fixer1234

1
@ fixer1234 Sì, ho intenzione di aggiungere ulteriori informazioni e, soprattutto, informazioni più pertinenti e affidabili. Ci sono molte idee sbagliate e soluzioni sicure erroneamente percepite nel campo della fissità dei file, quindi c'è molto da dire. Ho trovato così tante informazioni dopo aver pubblicato questo post che è chiaramente necessario un aggiornamento e ho già compilato tutto nelle mie note insieme a riferimenti. Non sono sicuro che SuperUser sia il posto migliore dove pubblicare tutti questi dati, ma non ho un blog tutto mio: - / Cercherò di essere il più conciso possibile.
gaborous

3
I DVD + R sono abbastanza affidabili se non si ottengono falsi. I CD-R sono stati influenzati da qualsiasi luce dall'infrarosso al viola (e l'infrarosso è ovunque, a volte molto), i DVD + R sono influenzati solo dal rosso o più corto, già più difficile. I DVD hanno anche lo strato sensibile tra due strati di plastica, i CD avevano lo strato appena sotto la superficie scrivibile a matita !! I dischi BD-R sono i migliori: hai bisogno di luce viola o ultravioletta per rovinarli e la loro superficie è la più forte. Direi di andare con BD-R per l'archiviazione pratica con un'alta probabilità di successo dopo 30 anni. Ma hai bisogno di un giocatore.
FarO,

1
@OlafM sì, è vero, ogni nuova generazione di dischi ottici porta con sé tecnologie più affidabili, non solo nel loro materiale, ma anche nella loro configurazione tecnologica (ad esempio, il modo in cui i pozzi / le scanalature vengono scritti e gestiti , il codice di correzione degli errori, ecc. .), ma dovresti anche prestare attenzione al materiale in cui sono stati realizzati gli strati, non tutti i dischi ottici sono uguali e di solito (ma non sempre), i dischi di qualità archivistica sono realizzati con materiali più resilienti.
Gaborous,

12

Rapido follow-up sulla mia precedente risposta sopra , questo sarà reso più conciso ed esteso con informazioni aggiuntive (ma non di primaria importanza) e riferimenti che non posso aggiungere nella prima risposta a causa dei vincoli di lunghezza di 30K.

Poiché l'archiviazione a lungo termine è un processo di cura, ecco alcune altre cose che potresti voler prestare attenzione per rendere il tuo processo più efficiente e consumare meno tempo (e risorse):

  • Deduplicazione : poiché l'unico modo per garantire l'archiviazione a lungo termine è la ridondanza deliberatamente progettata, si desidera evitare inutili dati ridondanti (ad esempio, copie di file recuperati dalla chiave USB sul disco rigido dell'archivio, ma è già in arrivo una copia dal tuo computer principale!). I dati ridondanti indesiderati, che di solito vengono chiamati duplicati, sono dannosi, sia per i costi di archiviazione (richiedono più risorse di archiviazione ma sarà difficile trovarli quando necessario), per il processo (che cosa succede se si hanno versioni diverse dello stesso file? Come puoi sapere quale copia è quella corretta?) E per il tuo tempo (sommerà i tempi di trasferimento quando sincronizzerai il backup con tutti i tuoi archivi). Ecco perché i servizi di archiviazione professionali di solito offrono la deduplicazione automatizzata: i file esattamente simili avranno lo stesso inode e non occuperanno spazio aggiuntivo. Questo è quello che fa SpiderOak per esempio. Esistono strumenti automatizzati che puoi utilizzare e i filesystem ZFS (Linux) o ReFS (Windows) possono farlo automaticamente per te.

  • Priorità / categorizzazione : come puoi vedere, l'archiviazione a lungo termine è un processo che richiede tempo che deve essere condotto regolarmente (per verificare la sanità mentale, sincronizzare gli archivi su supporti, creare nuovi archivi su nuovi mezzi per sostituire quelli morenti, riparare i file usando codici di correzione degli errori , eccetera.). Per ridurre al minimo il tempo che ti costa, prova a definire diversi schemi di protezione in base alla priorità dei tuoi dati in base alle categorie. L'idea è che quando si spostano i dati del computer su uno dei dischi rigidi esterni utilizzati per l'archiviazione a lungo termine, li si inserisce direttamente in una cartella che definisce la priorità di backup: "non importante", "personale", "importante", "critico ". Quindi è possibile definire diverse strategie di backup per ogni cartella: riservare la protezione completa (ad es. Backup su 3 dischi rigidi + cloud + codici correzione errori + BluRays) solo per i dati più critici che si desidera mantenere tutta la vita (la cartella critica) , quindi una protezione media per dati "importanti" (ad es. backup su 3 dischi rigidi + cloud) e quindi "personale" vengono appena copiati su almeno due dischi rigidi esterni e "non importante" non ottiene alcuna copia (o forse su un disco rigido guidare se la sincronizzazione non è troppo lunga ...). Di solito, vedrai che " sono tutte le cose che scarichi da Internet o vari file e media che non ti interessano davvero (come software, giochi e film). La linea di fondo è che:più file vuoi archiviare a lungo termine, più sarà difficile (e dispendioso in termini di tempo) , quindi cerca di mantenere al minimo i file che ottengono questo trattamento speciale.

  • I metadati sono un punto critico: anche con buone strategie di cura, di solito c'è una cosa che non è protetta: i metadati. I metadati includono le informazioni sui tuoi file, ad esempio: l'albero delle directory (sì, questo è solo pochi byte, se lo perdi, ottieni i tuoi file in totale disordine!), Il nome del file e l'estensione, il timestamp (questo può essere importante per te), ecc. Questo potrebbe non sembrare un grosso problema, ma immagina quanto segue: cosa succede se domani, tutti i tuoi file (compresi i file spediti con software e roba) verranno messi tutti in una cartella piatta, senza il loro nome né estensione. Sarai in grado di recuperare i file necessari dai miliardi di file sul tuo computer, mediante ispezione manuale? Non pensare che questo sia uno scenario insolito, può accadere con la stessa facilità di una presa di corrente o di un arresto nel mezzo di una copia: la partizione in fase di scrittura può essere completamente distrutta (il famigerato tipo RAW). Per ovviare a questo problema, dovresti essere preparato e preparare i tuoi dati per il recupero dei dati: per assicurarti di conservare i metadati, puoi agglomerare i file con i loro metadati usandoarchivi non solidi come ZIP DEFLATE o DAR (ma non tar). Alcuni filesystem offrono ridondanza automatizzata di metadati, come DVDisaster (per dischi ottici) e ZFS / ReFS (per dischi rigidi). Quindi, in caso di arresto anomalo dei metadati, è possibile provare a ripristinare le partizioni utilizzando TestDisk o GetDataBack (consentire il recupero parziale dell'albero delle directory) o ISOBuster (per i dischi ottici), per ripristinare l'albero delle directory e altri metadati. Nel caso in cui tutto ciò non riesca, è possibile eseguire il fallback al filescraping utilizzando PhotoRec: questo estrarrà tutti i file che riconosce ma in totale disordine e senza il nome del file né il timestamp, verranno recuperati solo i dati stessi. Se hai compresso file importanti, sarai in grado di recuperare i metadati all'interno dello zip (anche se lo zip stesso non contiene più metadati, almeno all'interno dei file disporrà comunque dei metadati corretti). Però, dovrai controllare manualmente tutti i file filtrati uno per uno manualmente, il che richiede tempo. Per evitare questa possibilità, è possibile generare in anticipo un file di checksum di integrità utilizzando pyFileFixity o PAR2, quindi utilizzare questo file di checksum di integrità dopo il filtraggio per riconoscere e rinominare automaticamente i file in base al loro contenuto (questo è l'unico modo per automatizzare i meta- recupero dei dati, poiché il filescraping può tecnicamente recuperare solo il contenuto, non i metadati).

  • Metti alla prova i tuoi formati di file e le strategie di cura : invece di fidarti delle parole degli articoli su quale tipo di formato è migliore dell'altro, puoi provare da solo con pyFileFixity filetamper.py o semplicemente da solo sostituendo alcuni caratteri esadecimali in alcuni file: vedrai che la maggior parte dei formati di file può essere suddivisa in soli 3 byte diversi. Quindi dovresti davvero scegliere con cura i tuoi formati di file: preferisci semplici file di testo per le note e usa formati di file resilienti per i media (sono ancora in fase di elaborazione come MPEG-4 Variable Error Correcting Code, lo implementa ffmpeg, ref verrà aggiunto ) o genera i tuoi codici di correzione degli errori.

  • Leggi studi statistici, non credere alle affermazioni : come ho detto nella risposta precedente, affermazioni stravaganti vengono fatte continuamente sulla longevità dei supporti di memorizzazione senza alcun fatto scientifico e dovresti essere particolarmente diffidente a riguardo. In effetti, non esiste nulla nella legge che impedisca al produttore di vantarsi di pretese false e non verificabili sulla longevità. Preferisco fare riferimento a studi statistici, come il rapporto annuale di BackBlaze sui tassi di guasti dei dischi rigidi .

  • Prendi un supporto di memorizzazione garantito a lungo . Una garanzia non può riportare i tuoi dati, ma ti dice come il produttore valuta il tasso di fallimento del suo prodotto (perché altrimenti costerebbe troppo se il tasso fosse troppo alto durante il periodo di garanzia).


Un aggiornamento sullo schema che utilizzo: applico la strategia di definizione delle priorità sopra descritta e ho aggiunto il servizio di backup cloud SpiderOak al mio schema, perché ha un piano con memoria infinita ed è totalmente crittografato, quindi mantengo la proprietà esclusiva dei miei dati. Non utilizzo come unico supporto di backup per nessuno dei miei dati, è solo un livello aggiuntivo.

Quindi, ecco il mio schema attuale:

  • 3 copie di dischi rigidi regolarmente controllate, sincronizzate e archiviate in due luoghi diversi e 1 che è sempre su di me (lo uso per archiviare la spazzatura e fare backup rapidi).
  • SpiderOak con piano di archiviazione infinito
  • Dischi BluRay per dati veramente sensibili ma non troppo grandi (limito a 50 GB i dati che posso archiviare su questi dischi)
  • pyFileFixity e DVDisaster per le cartelle Voglio davvero assicurarmi di mantenere a lungo termine.

La mia routine quotidiana è così: ho sempre un HDD USB portatile 2.5 che posso usare per riporre oggetti non importanti (spostare i file dal mio computer sull'HDD) o per eseguire il backup di elementi importanti (copiare i file su HDD ma conservarne una copia sul mio computer). Per cose veramente critiche, attivo anche il backup online su SpiderOak (ho una cartella sul mio computer con cose critiche, quindi ho solo bisogno di spostare i file critici lì e viene sincronizzato automaticamente da SpiderOak). Per i file DAVVERO critici, calcolo anche un file di correzione degli errori usando pyFileFixity.

Quindi, per riassumere, per cose critiche, le memorizzo su: l'HDD portatile, il cloud SpiderOak e il mio computer, quindi ne ho 3 copie in qualsiasi momento con solo due azioni rapide (copia sull'HDD portatile e passa alla cartella SpiderOak). Se una copia viene danneggiata, posso fare un voto di maggioranza per risolverli usando pyFileFixity. È uno schema a basso costo (sia in termini di prezzo che di tempo) ma molto efficiente e implementa tutti i principi fondamentali della cura digitale (tripla ridondanza, copie diverse in posizioni diverse, mezzi diversi, controllo dell'integrità ed ecc. Di SpiderOak).

Quindi, ogni 3-6 mesi, sincronizzo il mio HDD portatile con il mio secondo HDD a casa, e poi ogni 6-12 mesi sincronizzo il mio HDD portatile con il mio terzo HDD che si trova in un'altra casa. Ciò offre l'ulteriore vantaggio della rotazione (se in 6 mesi mi rendo conto che qualcosa è andato storto nel mio ultimo backup e ho eliminato i file critici, posso ottenerli da uno dei due HDD domestici).

Infine, ho scritto alcuni file molto critici su dischi BluRay usando DVDisaster (e altri file ecc con pyFileFixity ma non sono sicuro che fosse necessario). Li conservo in una scatola ermetica in un armadio. Li controllo solo ogni pochi anni.

Quindi vedete, il mio schema non è davvero un grosso onere: su base giornaliera, ci vogliono alcuni minuti per copiare i file sull'HDD portatile e sulla mia cartella SpiderOak, e poi mi sincronizzo solo ogni 6 mesi con l'uno o l'altro HDD di casa . Questo può richiedere fino a un giorno a seconda della quantità di dati che devono essere sincronizzati, ma è automatizzato da software, quindi devi solo lasciare che un computer esegua il software e fai qualcos'altro (io uso un netbook da $ 100 che ho comprato solo per farlo, così posso lavorare sul mio computer principale allo stesso tempo senza preoccuparmi di mandare in crash il mio computer nel mezzo di una copia che può essere terribile e distruggere il tuo disco rigido in fase di scrittura ). I codici di correzione degli errori e gli schemi BluRay sono usati raramente per dati veramente critici, quindi richiede un po 'più di tempo, ma è raro.

Questo schema può essere migliorato (come sempre), ad esempio utilizzando ZFS / ReFS sui dischi rigidi : questo implementerebbe una protezione automatica del codice di correzione degli errori Reed-Solomon e un controllo dell'integrità (e dittoblocks !) Senza alcuna interazione manuale da parte mia ( contrariamente a pyFileFixity). Sebbene ZFS non possa essere eseguito su sistemi operativi Windows (per il momento) , esiste ReFS che consente un controllo simile della correzione degli errori a livello di filesystem. Inoltre, potrebbe essere una buona idea usare questi filesystem su HDD esterni! Un HDD portatile con ZFS / ReFS con correzione automatica degli errori RS e deduplicazione dovrebbe essere fantastico! (e ZFS sembra essere abbastanza veloce, quindi la copia dovrebbe essere veloce!).

Un'ultima nota: fai attenzione alle affermazioni sulle capacità ECC dei filesystem come in questo elenco , perché per la maggior parte è limitato solo ai metadati (come APFS ) o al mirroring RAID 1 ( btrfs ). Per quanto ne so, solo ZFS e ReFS forniscono codici di correzione degli errori reali (e non un semplice mirroring) sia di metadati che di dati, con ZFS attualmente il più avanzato (anche se ancora in qualche modo sperimentale a partire dal 2018), in particolare perché le unità ReFS non possono essere avviabili .


11

Non esiste una soluzione facile. La manutenzione dell'archivio è un processo , non un lavoro una tantum. Tutti e tre i tipi di supporti di archiviazione attualmente disponibili hanno i propri vantaggi e svantaggi, tuttavia questi argomenti si applicano a tutti i tipi di media:

  1. Nessuno ha archiviato DVD o hard disk per 30 o 100 anni, per ovvie ragioni. Quindi non esiste un track record e nessuno sa come invecchieranno i media. I test di invecchiamento artificiale non dimostrano molto e fai affidamento sui test del fornitore (non imparziale).

  2. È necessario conservare i supporti in un ambiente controllato per risultati ottimali (temperatura / umidità costanti, scarsa luminosità, ecc.). Altrimenti la vita dei media si riduce in modo significativo.

  3. È necessario mantenere l'hardware e il software che legge i media (ad es. Le interfacce SATA potrebbero non essere prontamente disponibili tra 30 anni).

Quindi, a mio avviso, l'unica soluzione praticabile per utenti domestici o piccole imprese è questa:

  1. Conservare più copie di tutti i dati su diversi tipi di supporti (sia dischi rigidi che DVD)
  2. Conservare più copie di tutti i dati in più posizioni (a casa e nella cassetta di sicurezza delle banche).
  3. Copia tutti i dati su nuovi supporti ogni tanto (ad es. Copia su un nuovo disco rigido e nuovi dischi DVD ogni 2 anni. Man mano che la densità dei dati aumenta, probabilmente avrai bisogno anche di meno dischi.
  4. Conservare copie cartacee per tutti i dati critici, se possibile (ad esempio stampare quei registri generali annuali per l'azienda, stampare le foto di famiglia più preziose, ecc.)

1
Mi chiedo se esiste un RAID per i DVD .... cioè se conservi i DVD per due anni, potresti essere sinceramente sicuro che l'80% di essi sarebbe privo di errori, quindi potresti avere due dischi di parità. Hmmmm. penso che usenet usi file di parità. Potrebbe valere la pena usare qualcosa del genere per l'archiviazione di DVD / CD / BD.
user606723

1
@ user606723: Questa è un'ottima idea! Suggerisco di usare qualcosa come l'archivio RAR multi-volume (se i file originali sono davvero grandi) con i file di parità PAR2 ...
haimg

4
La compatibilità dell'interfaccia sarebbe una delle maggiori preoccupazioni; sono passati circa 30 anni da quando è stato introdotto IBM XT, ma quanti computer oggi possono in qualche modo interfacciarsi con un disco rigido pre-ATA? Quanti computer costruiti oggi possono persino interfacciarsi con un disco rigido PATA senza hardware aggiuntivo (scheda controller o adattatore USB)?
un CVn il

1
@ user606723 In realtà esiste quello che chiamate "RAID per DVD" ed è già implementato sotto forma di "codici di correzione degli errori", in particolare usando il CIRC (Cross-Interleaved Reed – Solomon Coding). Ecco perché piccoli graffi o polvere non ti impediranno di leggere i dati, perché sono già corretti automaticamente. Tuttavia, non è possibile specificare il livello di ridondanza desiderato, quindi se si desidera un DVD più resiliente, è necessario utilizzare un software di terze parti come DVDisaster , PAR2 o pyFileFixity .
Gaborous,

5

Andrei microfilm. Non so se sia ancora prodotto, ma sarei sorpreso se non lo fosse. I negativi a base d'argento durano centinaia di anni se conservati correttamente. Ovviamente si tratta di un investimento enorme, che occuperà un'intera stanza per la fotografia e la visualizzazione e che non conta lo spazio di archiviazione. Quindi è vero solo se SIGNIFICA 100 anni + senza manutenzione.

Altrimenti, e probabilmente non lo sei, a meno che tu non voglia creare una capsula del tempo, usa solo i backup dell'HDD e copia tutto il materiale sui nuovi supporti ogni 10-15 anni. In realtà, non esiste un'assicurazione migliore contro l'invecchiamento del supporto se non copiando il tutto ogni 10 anni circa. Meglio del microfilm, meglio delle compresse di argilla, meglio degli obelischi di pietra sepolti nella sabbia del deserto.


4

Fino a 5 TB (o più?) È possibile archiviare in modo sicuro fino a 30 anni su un nastro magnetico noto anche come unità nastro. Questa volta è dimostrato. I registrabili Blue-ray possono archiviare in sicurezza anche i tuoi oggetti fino a 30 anni, ma la loro capacità è di circa 100 GB.

Se hai più soldi, li conserveresti su una pellicola 35mm in bianco e nero. Si presume che i dati possano essere ripristinati (a seconda della densità) per i prossimi 700 anni. ( Link tedesco a Wikipedia )


Per la cronaca, scrivere su dischi blu-ray 20-50 non è fuori discussione.
user606723

Non ho mai sentito parlare dell'archiviazione dei dati su 35mm, anche se il principio è ovvio suppongo. Com'è la densità?
Shinrai,

@Shinrai: Non lo so la densità della pellicola, mi dispiace
tuergeist

Probabilmente puoi calcolare una densità tra 1 e 10 megabit per frame.
Daniel R Hicks,

3
LS-9000 ED di Nikon esegue la scansione di pellicole a 4000 dpi, offrendo 21,4 Mp / frame a 35 mm (24 x 36 mm). Se puoi usare 1/10 di quello per l'archiviazione effettiva dei dati (tenendo conto delle imperfezioni del film, limiti di messa a fuoco e risoluzione nell'ottica su entrambe le estremità, ecc.) 2 Mb / frame o qualcosa come 10 MB per un rotolo di pellicola a 36 esposizioni e puro bianco / nero. Se i 4000 dpi dello scanner sono il fattore limitante, sono 100 MB per un rotolo da 36 espansi. Ovviamente, dovresti comunque conservare in qualche altro modo le informazioni su come leggere i dati, perché ad occhio nudo le cornici sembrerebbero apparire abbastanza uniformemente grigie.
un CVn il

2

Consiglio un disco di nichel da tre pollici di diametro con informazioni incise al microscopio sulla sua superficie.

http://rosettaproject.org/blog/02008/aug/20/very-long-term-backup/


3
Deve essere esattamente tre pollici? Ho un disco di nichel da 75 mm di diametro a portata di mano ...
un CVn il

L'unico problema con questo approccio è che può solo memorizzare immagini fisse (scansioni). Ma attualmente è l'approccio migliore per l'archiviazione MOLTO a lungo termine (fino a 2000 anni, millenias yey!). Un altro difetto evidenziato da alcuni commenti sul blog è che può contenere solo circa 50 MB di dati.
gaborous

1

Per quel tipo di arco di tempo, tutto ciò che è già su carta (o può essere facilmente stampato senza perdere informazioni) sarebbe meglio conservare in quel modulo. Basta essere consapevoli della carta e del toner utilizzati per la copia cartacea.

Per quanto riguarda gli altri, non conosco un supporto digitale attualmente utilizzato che duri per quei periodi di tempo. Se spendi tempo (e quindi denaro) per aggiornare la tua collezione, un nastro magnetico potrebbe essere un'opzione praticabile, ma anche in questo caso avresti bisogno di ridondanza, in quanto potresti scoprire che un singolo nastro è andato male (o potrebbe essere che l'unità a nastro capita solo di manipolare il nastro durante la lettura).

E anche quando riuscirai a far sì che i media attuali resistano alla prova del tempo, dovresti ancora affrontare il problema se un programma potrebbe leggere i media tra 30 anni, figuriamoci tra 100 anni.


1
Il nastro magnetico è soggetto a diverse modalità di guasto, dalla "stampa" alla smagnetizzazione nel tempo all'ossido che semplicemente cade dal nastro.
Daniel R Hicks,

1

È vero che i comuni CD-R e DVD-R non sono abbastanza affidabili per l'archiviazione di dati importanti. Ma puoi ottenere DVD che non sono così veloci da decadere:

https://www.google.com/search?q=archival+dvd-r


Grazie per aver sottolineato questa opzione, una buona alternativa agli M-Disc che è accessibile a chiunque abbia un registratore DVD.
gaborous

"Verbatim Gold Archival DVD-R [...] è stato valutato come il DVD-R più affidabile in un accurato stress test a lungo termine da parte della rinomata rivista tedesca c't (c't 16/2008, pagine 116- 123) [...] raggiungendo una durata minima di 18 anni e una durata media da 32 a 127 anni (a 25 ° C, umidità del 50%). Nessun altro disco si avvicinava a questi valori, il secondo miglior DVD-R aveva un durata minima di soli 5 anni. ", linuxtech.net/tips+tricks/best_safe_long-term_data_storage.html
gaborous

1

Ho letto che "M-Disc" ha creato un DVD che necessita di uno scrittore speciale ma che è leggibile su lettori DVD generici. Sostengono una durata stimabile di 1000 anni, affermando che non può essere testato con precisione. Lunga esposizione al sole, graffi, uso multiplo ecc. E il disco è utilizzabile al 100%. Sarei interessato a qualsiasi feedback da parte di chiunque abbia riscontrato questo sistema.

Ecco un estratto di Dell che forse installa l'unità M-Disc nei loro nuovi laptop / PC

M-DISC Ready guida i dati di incisione laser in un materiale inorganico simile a una roccia per prevenire la perdita di dati, garantendo che i file siano sicuri e possano essere conservati per un massimo di 1000 anni, afferma la società.

A differenza di tutti gli altri DVD registrabili che utilizzano coloranti organici per contenere i dati, i dischi M non si sbiadiranno o degraderanno nel tempo.


Invece di ripubblicare con più informazioni, dovresti aver modificato il tuo post originale.
Kazark,

Puoi citare la citazione con un link o qualcosa del genere? Inoltre, puoi usarlo >per formattarlo come un preventivo a blocchi.
Kazark,

1

È necessario combinare diverse tecnologie, posizioni e supporti per ottenere backup di lunga durata:

  • Masterizza su DVD - Bluray a bassa velocità. Conservali in condizioni di scarsa luminosità, bassa temperatura, bassa umidità, senza graffi.
  • Conservare una copia in un'unità RAID 1, Raid5, Raid6 o Raid10.
  • Conservare un'altra copia in un HDD esterno
  • Conserva una copia nel cloud (carbonite, crashplan)
  • Conservare una copia della tecnologia M-Disc (masterizzatori Mdisc e Mdisc) non è disponibile su Amazon.com a prezzi molto convenienti. Il produttore afferma di poter conservare i dati per 1000 anni.

Vedo che tre dei tuoi cinque punti elenco sono in realtà variazioni di un singolo tema: l'archiviazione del disco rigido magnetico. Per quanto riguarda il tuo ultimo punto, il problema non è tanto quanto a lungo i media manterranno i dati (e almeno i produttori di hard disk citano comunemente numeri che sono molto meglio della realtà) ma per quanto tempo saranno disponibili le apparecchiature per leggere i dati o conoscenza di come renderli saranno disponibili. Tutte le tue tecniche suggerite sono di alta tecnologia. Supponiamo che i Vichinghi memorizzino i dati su dischi Blu-ray; quali sono le probabilità che avremmo la conoscenza su come interpretare quei dati ora?
un CVn il

@ MichaelKjörling Conservare un computer aggiuntivo con tutte le periferiche necessarie. Utilizzare la memoria ROM, se necessario.
QuyNguyen2013,

1

Come qualcuno ha già detto, esiste una nuova tecnologia chiamata M-Disc. Sono molto affidabili: http://www.zdnet.com/torture-testing-the-1000-year-dvd-7000023203/ Abbiamo iniziato a usarli per proteggere le immagini dei dischi delle macchine di produzione. Ci sono già Blu-Rays sul mercato. L'unico svantaggio è che sono più lenti dei classici B-RD.


Ho un bisogno simile di OP e dopo averlo letto, penso che ci proverò per questa soluzione, grazie per aver sottolineato questa tecnologia! Richiede solo l'acquisto di un masterizzatore DVD o Blu-ray compatibile con M-Disc e LG ha già prodotto molto, quindi è anche abbastanza accessibile e conveniente!
gaborous

1
In effetti sembra che gli M-Disc non siano così affidabili come pretendono. Uno studio francese indipendente degli Archives de France (istituzione ufficiale di archiviazione dei dati della Francia) per trovare il miglior supporto per l'archiviazione dei dati, e hanno scoperto che gli M-Disc non resistono realmente all'umidità e alla temperatura (invecchiamento accelerato). Invierò qui una risposta con maggiori dettagli.
gaborous

0

Se vuoi avere un metodo per risolvere questo problema, dovresti studiare il campo Preservazione digitale.

http://en.wikipedia.org/wiki/Digital_preservation

La conservazione digitale è il metodo per mantenere vivo il materiale digitale in modo che rimangano utilizzabili poiché i progressi tecnologici rendono obsolete le specifiche hardware e software originali (wikipedia)

Esiste anche un modello di riferimento: OAIS http://en.wikipedia.org/wiki/Open_Archival_Information_System

Ci sono alcune soluzioni open source e commerciali per accompagnarlo. Le biblioteche e gli archivi utilizzano queste tecnologie per conservare i libri digitalizzati per lunghi periodi di tempo.


Conservare i dati per un lungo periodo di tempo non equivale a sopravvivere per così tanto tempo, come è già stato sottolineato in diverse risposte altamente votate. Una parte importante della conservazione digitale è la migrazione dei dati man mano che i media invecchiano e diventano obsoleti.
un CVn del

Grazie Michael. Indica solo l'OAIS come metodo per raggiungere il vero obiettivo.
AGM,

Questa è una buona risposta per le strategie di digital curation, ma in effetti non per quale supporto di memorizzazione dovrebbe essere usato. Il modello OAIS è molto buono e effettivamente utilizzato dalla maggior parte delle biblioteche e archivi nazionali nel mondo, ma lo trovo un po 'troppo complicato, teorico e contenente metadati non necessari per l'uso individuale. Il modello BagIt è un po 'più pratico e più utilizzabile, ma ancora piuttosto complicato, dove strumenti semplici come PAR2 o pyFileFixity potrebbero essere sufficienti.
Gaborous,

0

La tua risposta è semplice:

https://wiki.openstack.org/wiki/Cinder

Openstack è un sistema di archiviazione quasi "immortale", in quanto è possibile aggiornare o sostituire i nodi di errore con quelli nuovi anche con tecnologie future a noi sconosciute al momento. I tuoi dati vivono almeno 2, fino a 5 posti contemporaneamente in questo sistema, quindi le note di archiviazione complete possono fallire e i tuoi dati sono ancora presenti. Scala fino a 50 PB (verificato) - 110 PB. Fondamentalmente aggiunge un livello SW sul tuo hardware e questo rende infinito il tuo spazio di archiviazione. Supera la nostra attuale barriera del suono dei set di incursioni con i suoi limiti di tempi di ricostruzione di set di incursioni molto grandi. I costi sono circa il 50% dei tradizionali sistemi di stoccaggio raid. Conosco un sistema di FUJITSU che presenta questa come architettura di riferimento: CD10000


1
Ora devi solo
fidarti di

-1

Pratica memorizzazione dei dati a lungo termine utilizzando l'attuale tecnologia dell'anno 2014:

... e questo è quello che sto facendo.

Ottieni due delle unità multi-terabyte, ad esempio due unità da 3 terabyte ciascuna. Chiama un TB-1 e l'altro TB-2. Eseguire il backup di tutto su TB-1. Dopo un anno di backup su TB-1, riformattare TB-2 e copiare TB-1 su TB-2. Quindi, per l'anno successivo, esegui il backup di tutto su TB-2. Dopo quell'anno, riformattare TB-1 e copiare TB-2 in TB-1 avviando così di nuovo il ciclo biennale.

La riformattazione ripristina la forza magnetica degli indicatori di settore. E la copia ripristina la forza magnetica dei dati.

Lo stesso principio può essere applicato al backup su nastro e al backup su CD, o quasi tutti gli altri backup. Ma i CD sono così scomodi perché possono andare male in meno di un anno e ne servono così tanti per eseguire il backup di tutto. Quindi, masterizzare copie di tutti i CD di backup ogni 5 mesi è semplicemente troppo lavoro. Finora, posso archiviare tutta la mia vita su un disco multi-terabyte.


2
I CD vanno male in meno di un anno? Stai dicendo che non possiedi alcun CD di età superiore a 1 anno? Ho dati e CD audio da più di un anno che posso garantirvi e funzionano benissimo!
Dave,

1
Ho dei CD del 1998 che funzionano ancora bene. Indipendentemente dal fatto che sappiamo che questo non è vero, cosa ti fa credere che sia così? Puoi fornire le tue informazioni? Grazie.
Matthew Williams,

Non è necessario riscrivere i dati sull'HDD, è sufficiente fornire un'alimentazione elettrica per mantenere (o ripristinare) il campo elettromagnetico. La riscrittura dei dati per l'archiviazione a lungo termine è necessaria solo per schede SD / Compact e SDD.
Gaborous,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.