Raid 1 recupero errori disco mdadm (linux): DRDY err (UNC) continua a ripetersi impossibile raggiungere l'accesso

2

Durante il fine settimana, ho ricevuto diverse e-mail dal nostro server di archiviazione di rete (solo una scatola personalizzata con CentOS 5 e 2 raid software 2 unità da 2 TB) che indicava che SMART ha rilevato problemi con una delle unità.

Ho fatto uno status e 2 delle partizioni razziate sono state contrassegnate come fallite:

    [root@aapsan01 ~]# cat /proc/mdstat
Personalities : [raid1]
md1 : active raid1 sdb1[1] sda1[0]
      104320 blocks [2/2] [UU]

md0 : active raid1 sdb3[1] sda3[2](F)
      4064320 blocks [2/1] [_U]

md3 : active raid1 sdb5[1] sda5[0]
      1928860160 blocks [2/2] [UU]

md2 : active raid1 sdb2[1] sda2[2](F)
      20482752 blocks [2/1] [_U]

Quindi, ho impostato tutte le partizioni di sda su "fallito", ho rimosso tutti i mirror di sda con successo, ho inserito un nuovissimo drive identico da 2 TB (dopo l'arresto) e avviato. Ora, non riesco a raggiungere il login perché i messaggi di errore continuano a ripetersi dopo che l'array raid md: autodetect è stato raggiunto durante il processo di avvio. All'inizio gli errori erano qualcosa del tipo:

  DRDY err (UNC) -- exception emask media error

Ora ricevo errori I / O. Ho provato con l'unità corrotta rimossa e poi di nuovo dentro. Lo stesso spettacolo. Le scritture che ho trovato mostrano che si tratta di un semplice processo di recupero. Cosa dà? Qualcuno incontra qualcosa di simile? Sembra che il processo di avvio continui, anche se ci vogliono eoni per passare attraverso ogni passaggio. Qualcuno ha mai dovuto aspettare così tanto tempo per raggiungere il prompt? Spero che, se non riesco a ottenere il prompt, riesco a trovare un posto con il cd di ripristino.

software-raid raid-1 centos-5

— Flotsam N. Jetsam
fonte

1

Non sono alcune partizioni SDB che hanno fallito?

— Linker3000,

Come puoi dirlo dal messaggio stat? L'e-mail che ho ricevuto dal demone mdadm diceva "Potrebbe essere correlato al componente device / dev / sda3".

— Flotsam N. Jetsam,

Guarda md2 - ha due partizioni nell'array elencate nell'ordine [sdb2] [sda2] e lo stato della coppia è elencato come [_U], il che significa che la prima partizione ([sdb2]) è stata abbandonata dall'associazione . Leggi qui: howtoforge.com/replacing_hard_disks_in_a_raid1_array

— Linker3000,

1

Guarda md2 - ha due partizioni nell'array elencate nell'ordine [sdb2] [sda2] e lo stato della coppia è elencato come [_U], il che significa che la prima partizione ([sdb2]) è stata abbandonata dall'associazione . Leggi qui: http://www.howtoforge.com/replacing_hard_disks_in_a_raid1_array . Spero che tu lo abbia risolto.

— Linker3000
fonte

Questo è molto utile. Ho visto delle annotazioni su tutto il Web, ma da nessuna parte posso ricordare che qualcuno abbia affermato con certezza che il lato di sottolineatura indica quello cattivo. Probabilmente dovrebbe essere intuitivo, ma credo di essere stato in una sorta di modalità di panico e non è affondato. Grazie.

— Flotsam N. Jetsam,

0

Sono un manichino. Avevo identificato erroneamente il disco guasto e stavo cercando di utilizzare quello difettoso nel mio sforzo di recupero. Per chiunque sia interessato, puoi usare lshal per ottenere il codice del disco rigido. reindirizzare l'output di lshal su un file di registro e quindi cercare sda sdb o qualunque mdadm o SMART identificato come non valido.

— Flotsam N. Jetsam
fonte

0

Seguendo la risposta di Linker3000, il contenuto del disco rimosso per primo dovrebbe essere ancora corretto. Rimuovi il disco che ora sai è effettivamente quello rotto e prova a iniziare solo con il disco buono. C'è una piccola possibilità che md abbia contrassegnato il tuo disco sano come se fosse stato aggiunto di nuovo con il disco rotto presente. In questo caso, è necessario iniziare da un CD / USB live e riattivare il RAID. Una volta che il tuo sistema funziona correttamente, puoi ricominciare con i normali passaggi per aggiungere un nuovo disco al tuo RAID 1.

— Joachim Wagner
fonte