Va bene. Dopo uno scrub di routine, il mio MDADM RAID5 riporta mismatch_cnt = 16. A quanto ho capito, ciò significa che, mentre nessun dispositivo ha segnalato un errore di lettura, ci sono 16 blocchi per i quali i dati e la parità non concordano.
Domanda n. 1: è possibile ottenere un elenco di questi blocchi?
Domanda n. 2: supponendo che il numero 1 sia possibile, dato che il filesystem sottostante è EXT4, c'è un modo per identificare quali file sono associati a questi blocchi?
Ho dei backup nearline e, in un mondo ideale, potrei semplicemente diffondere l'array live contro i dati di backup per individuare eventuali file che sono stati danneggiati silenziosamente. Ma la realtà sta ricordando che 6 TB di dati di backup sarebbero proibitivi e dispendiosi in termini di tempo. Sapere dove cercare e cosa recuperare semplificherebbe notevolmente le cose.
(Dovrei notare che eseguo solo lo scrub RAID con l'opzione 'check'. L'esecuzione dello scrub con l'opzione 'ripara' sembra terribilmente pericolosa perché MDADM sa solo che i dati o la parità sono sbagliati ma non sa quale. Quindi sembra che il 50% delle probabilità che MDADM indovini e ricostruisca dati errati, quindi desidero sapere quali file sono potenzialmente interessati in modo da poterli ripristinare dal backup, se necessario)
Qualche suggerimento molto apprezzato!
icheck
+ ncheck
in debugfs
per identificare i file in base all'offset del settore.
smartctl -a /dev/sda
e così via) oppure utilizzare qualsiasi altro metodo sia necessario eseguire un breve test SMART su ciascun disco e stampare un rapporto completo. È molto probabile che uno di loro stia morendo e ci vuole una grande quantità di malvagità per innescare un allarme generale di salute SMART.
dmesg
o / var / log / syslog?