Ho un server che esegue VMware ESXi v4.1.0 348481. Ha un RAID10 hardware e un'unità di backup SATA. Ho una VM in esecuzione che ha il suo vmdk di avvio primario sul datastore RAID10 e un vmdk da 600 GB sul datastore dell'unità di backup SATA. La VM esegue Debian Linux con il kernel FreeBSD e usa ZFS per l'unità di backup.
EDIT: l'unità non è direttamente collegata alla VM. Viene utilizzato come archivio dati VMware e la macchina virtuale ha un vmdk nell'archivio dati dell'unità SATA. Il datastore non è pieno (solo il 65% è pieno)
Ho effettuato l'accesso al server tramite SSH e ho scoperto che il backup di ieri sera era bloccato e zfs list
che zpool list
entrambi erano bloccati. Così ho aperto la console virtuale in ESXi ed è stato triste vedere:
(da1:mpt0:0:1:0): READ(10). CDC: 28 0 19 97 3a 50 0 0 2d 0
(da1:mpt0:0:1:0): CAM status: SCSI Status Error
(da1:mpt0:0:1:0): SCSI status: Check Condition
(da1:mpt0:0:1:0): SCSI sense: MEDIUM ERROR info:4862ec asc:11,4 (Unrecovered read error - auto reallocate failed)
(da1:mpt0:0:1:0): READ(10). CDC: 28 0 19 97 3a 50 0 0 2d 0
(da1:mpt0:0:1:0): CAM status: SCSI Status Error
(da1:mpt0:0:1:0): SCSI status: Check Condition
(da1:mpt0:0:1:0): SCSI sense: MEDIUM ERROR info:4862ec asc:11,4 (Unrecovered read error - auto reallocate failed)
Ho provato a riavviare la VM e ho ricevuto un messaggio che il sistema stava per essere riavviato per riavviarsi, e poi si è bloccato. (^ C appare ma non uccide shutdown
). Non posso interrompere o kill -9
i processi zpool list
zfs list
o rsync
- Non succede nulla quando provo.
- Questo indica che l'unità SATA di backup non funziona? O potrebbe essere solo un errore ESXi?
- Come posso dire nel client vSphere se l'unità non funziona? Non ho visto alcuna indicazione, tutto in Hardware Health Status sembra buono e non ho visto nulla nella configurazione di archiviazione.
- Come devo procedere da qui? Dovrei semplicemente riavviare la VM?
AGGIORNAMENTO: ho appena riavviato la VM. Dopo essere tornato online, lo zpool di backup era online, tuttavia:
root@timestandstill:/home/jnet# zpool status -v
pool: backup
state: ONLINE
status: One or more devices has experienced an error resulting in data
corruption. Applications may be affected.
action: Restore the file in question if possible. Otherwise restore the
entire pool from backup.
see: http://www.sun.com/msg/ZFS-8000-8A
scrub: none requested
config:
NAME STATE READ WRITE CKSUM
backup ONLINE 0 0 0
da1 ONLINE 0 0 0
errors: Permanent errors have been detected in the following files:
/backups/someserver/home/someuser/public_html/somedir/calendar/someuser/calendars/somefile.ics
Mi sto inclinando pesantemente verso la sostituzione dell'unità ...