Oggi pomeriggio qualcuno nel nostro ufficio ha deciso di staccare la spina dal nostro server perché stava precipitando fuori. Non l'hanno spento, hanno semplicemente staccato la spina mentre era in funzione.
Il server ha 4 unità SATA in una configurazione RAID 10 del software e LVM in esecuzione sul RAID. Il server esegue CentOS 6.2 Minimal ed è un host di macchina virtuale che utilizza KVM. Al momento della disconnessione, c'erano molte macchine guest in esecuzione sul computer. Ogni guest ha una o più partizioni LVM che utilizza direttamente come dischi rigidi. Le partizioni guest sono EXT3, EXT4 e NTFS. Il sistema operativo host è su una partizione EXT4.
Più tardi, quando il potere è tornato, quella persona lo ha ricollegato e si è avviato. Dal momento che lo hanno collegato senza prima collegare un monitor, non c'è modo di vedere cosa è successo sullo schermo. Ho provato a collegare un monitor ora, ma non funzionerà a meno che il monitor non sia collegato all'avvio. L'ho lasciato acceso, esattamente com'è, fino a quando non posso ottenere qualche consiglio dal momento che non voglio rovinare nulla (ulteriormente).
Posso entrare nell'host tramite SSH. Non l'ho ancora riavviato nel caso ci sia qualcosa in un registro da qualche parte che potrebbe essere utile.
Quello che devo fare è controllare tutti i dischi e le partizioni per l'integrità dei dati, se possibile. Penso che RAID 10 utilizzi un qualche tipo di cache basata sulla memoria e sono preoccupato che le unità siano incoerenti o che i file siano danneggiati se ci sono cose nel cue da scrivere sull'unità che non sono state ancora scritte.
[root@othello ~]# cat /proc/mdstat
Personalities : [raid10] [raid1]
md2 : active raid1 sdc1[2] sda1[0] sdd1[3] sdb1[1]
102388 blocks super 1.0 [4/4] [UUUU]
md0 : active raid10 sda3[0] sdc3[2] sdd3[3] sdb3[1]
1952289792 blocks super 1.1 512K chunks 2 near-copies [4/4] [UUUU]
bitmap: 0/15 pages [0KB], 65536KB chunk
md1 : active raid10 sdc2[2] sda2[0] sdd2[3] sdb2[1]
1022976 blocks super 1.1 512K chunks 2 near-copies [4/4] [UUUU]
unused devices: <none>
Mi dà anche fastidio il fatto di chiamare i miei array "quasi copie". È normale?
Che tipo di controlli del disco dovrei eseguire per assicurarmi che tutto sia a posto con unità e dati? Ci sono altre cose che dovrei controllare?
AGGIORNARE
Output di mdadm --detail
[root@othello ~]# mdadm --detail /dev/md0
/dev/md0:
Version : 1.1
Creation Time : Sat Feb 25 09:26:20 2012
Raid Level : raid10
Array Size : 1952289792 (1861.85 GiB 1999.14 GB)
Used Dev Size : 976144896 (930.92 GiB 999.57 GB)
Raid Devices : 4
Total Devices : 4
Persistence : Superblock is persistent
Intent Bitmap : Internal
Update Time : Sun Mar 11 12:59:30 2012
State : active
Active Devices : 4
Working Devices : 4
Failed Devices : 0
Spare Devices : 0
Layout : near=2
Chunk Size : 512K
Name : othello.myserver.com:0 (local to host othello.myserver.com)
UUID : 58ba40ab:12516733:e3779362:68200fdd
Events : 2208
Number Major Minor RaidDevice State
0 8 3 0 active sync /dev/sda3
1 8 19 1 active sync /dev/sdb3
2 8 35 2 active sync /dev/sdc3
3 8 51 3 active sync /dev/sdd3