L'unità ReFS / gli spazi di archiviazione vengono fatti cadere sotto carico pesante


8

Ho una workstation Windows 10 utilizzata nella mia azienda per cose come l'elaborazione delle immagini (Photoshop) e lo sviluppo del software (Eclipse). È un computer basato su i7-2600K, scheda madre Gigabyte GA-B75M-D3H B75, 16 GB di RAM. Il sistema operativo è su SSD Samsung 850 pro, c'è un altro 850 pro per dati, WD Black per dati, oltre a due unità HGST da 4 GB ciascuna su porte SATA 3, formattate ReFS, in un mirror degli spazi di archiviazione. L'array ha 1,63 GB usati, 1,99 GB gratuiti.

Recentemente le unità ReFS nel mirror degli spazi di archiviazione hanno iniziato a cadere - finora tre volte in un mese. Questo di solito si verifica sotto carico da moderato a pesante, dopo un periodo prolungato. Nessuno degli altri dischi è sotto carico per quanto ne so, quindi presumo che sia ReFS, Spazi di archiviazione o un problema con un disco sottostante. Un riavvio porta il disco online.

Riesco a vedere errori nel Visualizzatore eventi come quelli qui sotto. Questi non sono tutti in un unico posto, e mentre ci sono aree di registro NTFS e Spazi di archiviazione in "Registro applicazioni e servizi -> microsoft -> windows" non sembra esserci uno per ReFS.

Gradirei aiuto per rintracciare ciò che sta causando questi problemi e risolverli, in modo che il mio sistema rimanga attivo.

16:27.05 (under event viewer -> application and services log -> microsoft -> windows -> storagespaces-driver-operationsl
Virtual disk {26bf58b3-1cb9-4b93-a945-1b89331bb565} requires a data integrity scan.                                    
Data on the disk is out-of-sync and a data integrity scan is required.                  To start the scan, run the following command:                  

Get-ScheduledTask -TaskName "Data Integrity Scan for Crash Recovery" | Start-ScheduledTask                  

Once you have resolved the condition listed above, you can online the disk by using the following commands in PowerShell:                  

Get-VirtualDisk | ?{ $_.ObjectId -Match "{26bf58b3-1cb9-4b93-a945-1b89331bb565}" } | Get-Disk | Set-Disk -IsReadOnly $false                  
Get-VirtualDisk | ?{ $_.ObjectId -Match "{26bf58b3-1cb9-4b93-a945-1b89331bb565}" } | Get-Disk | Set-Disk -IsOffline  $false

16:27.05 (windows system event log): The file system was unable to write metadata to the media backing volume R:. A write failed with status "A device which does not exist was specified." ReFS will take the volume offline. It may be mounted again automatically.
16:27.06 (windows system event log): The file system detected a checksum error and was not able to correct it. The name of the file or folder is "<unable to determine file name>".
18:35.50 (windows system event log): Failed to connect to the driver: (-2147024894) The system cannot find the file specified. 
18:35.50 (Kernel PNP) The driver \Driver\WudfRd failed to load for the device SWD\WPDBUSENUM\_??_USBSTOR#Disk&Ven_Generic&Prod_STORAGE_DEVICE&Rev_9451#7&2a9fd895&0#{53f56307-b6bf-11d0-94f2-00a0c91efb8b}.

18:35.58: Virtual disk {26bf58b3-1cb9-4b93-a945-1b89331bb565} could not be repaired because there is not enough free space in the storage pool.                  
Replace any failed or disconnected physical disks. The virtual disk will then be repaired automatically or you can repair it by running this command in PowerShell:                  
Get-VirtualDisk | ?{ $_.ObjectId -Match "{26bf58b3-1cb9-4b93-a945-1b89331bb565}" } | Repair-VirtualDisk

AGGIORNA come yagmoth sottolinea che questo errore include qualcosa sull'USB. Gli scenari in cui ricordo che si verifica questo errore sono a) Quando si esegue il backup su un disco USB esterno b) Durante l'esecuzione dei backup di CrashPlan su un altro disco SATA interno


1
antivirus rimosso nel caso si tratti di un problema di compatibilità con Windows 10? come se mcafee avesse problemi con l'aggiornamento aniversary
yagmoth555

@ yagmoth555 Potrei provarlo, immagino, ma non mi sembra molto probabile. Sono abbastanza interessato a come risolvere il problema stesso, piuttosto che indovinare e controllare.
Tim

Purtroppo senza più log sospetto un problema hardware sottostante. Poiché l'idea AV è stata il test facile, come se il tuo mirror non fosse in grado di gestire l'IO, il driver AV all'accesso / durante la scrittura non aiuta (poiché rallenta il tuo IO installando un driver in mezzo) Se vuoi investigare senza test / errore potrebbe prima provare un processmonitor a registrare tutto. Se tutti falliscono, proverei a rimuovere il mirroring per riprovare dopo (ma quel test è purtroppo un test / errore test).
Tienici

Posso chiedere se il tuo mirror è terminato con il disco USB? poiché l'errore del kernel
indica

Entrambi i dischi sono su SATA 3Gbps. Buona rilevazione dell'errore USB. Domanda aggiornata. Non sono alla macchina da circa una settimana, ma proverò ad attivarlo di nuovo e vedrò se i registri sono diversi. ProcessMonitor sembra che genererebbe masse di log, ma a volte lo proverò grazie.
Tim

Risposte:


2

Gli spazi di archiviazione sembrano molto sensibili alla latenza di scrittura: se si verificano troppi picchi, il volume può essere eliminato.

Questo sembra un problema noto quando si usano SSD consumer, come puoi trovare qui


Grazie per quelle informazioni. I miei dischi ReFS / Storage Space sono dischi rigidi HGST da 4 TB, non SSD. I miei SSD eseguono NTFS. La cosa della latenza di scrittura è interessante però.
Tim

1

Innanzitutto, dovresti davvero controllare l'HCL. Scommetto che una cena carina, niente di ciò che hai menzionato c'è su Storage Spaces HCL. Come vSAN, Windows e gli spazi di archiviazione hanno HCL completamente diversi. Posso dire senza nemmeno cercare le tue unità, che nessuno di loro sarà presente sull'HCL, perché nessuno di essi è di livello enterprise.

Se si desidera una soluzione stabile, ottenere una scheda SAS LSI (non RAID), ottenere HDD SATA aziendali e ottenere un SSD serie Intel dc. È costoso? Sì. Sarà affidabile? Quanto può essere Windows quando si tratta di archiviazione (che non è eccezionale).

Ho scaricato gli spazi di archiviazione e sono tornato su una scheda RAID LSI. Ogni settimana è passato dalla corruzione dei dati allo stoccaggio solido per oltre due anni sullo stesso hardware. E avevo TUTTO il kit di livello enterprise che era sull'HCL.

È possibile trovare l'elenco di compatibilità hardware (HCL) qui https://www.windowsservercatalog.com/results.aspx?&chtext=&cstext=&csttext=&chbtext=&bCatID=1642&cpID=0&avc=10&ava=0&avq=0&OR=1&PGS=25&ready=0


1
Grazie per i tuoi pensieri Eric. Forse potresti modificare il tuo post per espandere "HCL" in quanto non so cosa significhi, e nemmeno altri lo leggeranno. Ho pensato che il punto centrale del software RAID, come gli spazi di archiviazione, fosse evitare la necessità di costose soluzioni di livello aziendale. Non sono sicuro che la tua risposta "buttalo via e compra qualcos'altro" affronti davvero la mia domanda.
Tim

Vedi i miei commenti, HCL = hardware certificato per funzionare in termini di profani. SW RAID non equivale o significa che puoi risparmiare su HW di livello enterprise, significa che hai la flessibilità di una soluzione basata su SW.
Eric C. Singer,

... e smetti di usare ReFS, torna a NTFS. è infinitamente più maturo di ReFS. ReFS ha molte promesse, ma ha anche un sacco di maturità da fare.
Eric C. Singer,

Ho scritto un intero post sul blog su Storage Spaces BTW, ho iniziato una serie ma ci ho rinunciato perché IMO, è un POS. Come la maggior parte delle soluzioni MS, è mezzo cotto. ericcsinger.com/backup-storage-part-5-realization-of-a-failure Siamo tornati alle schede RAID e da allora non abbiamo più avuto problemi. Dato che stai usando il mirroring, sarebbe quasi meglio impostare alcuni script robocopy per copiare i dati da un disco a un altro. Più facile da risolvere e probabilmente più affidabile, e ti permetterebbe di mantenere i tuoi dischi consumer.
Eric C. Singer,

1
Detto questo, dal momento che si esegue il mirroring dei dischi, è possibile eliminare un disco, formattarlo con NTFS e copiarvi i dati. Consiglio vivamente di evitare gli spazi di archiviazione, poiché il problema che stai riscontrando non è tanto uno ReFS, quanto uno spazio di archiviazione. Qualsiasi cosa abbia a che fare con lo sfratto dei dischi o la loro visualizzazione come non riuscita è correlata agli spazi di archiviazione. Se stai solo cercando di mantenere i tuoi dischi sincronizzati in modo da avere una replica locale, robocopy è il modo più semplice per farlo, è solo il tempo non è tutto.
Eric C. Singer,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.