Come posso sapere se un disco non funziona su ESXi / cosa significano questi errori?

Ho un server che esegue VMware ESXi v4.1.0 348481. Ha un RAID10 hardware e un'unità di backup SATA. Ho una VM in esecuzione che ha il suo vmdk di avvio primario sul datastore RAID10 e un vmdk da 600 GB sul datastore dell'unità di backup SATA. La VM esegue Debian Linux con il kernel FreeBSD e usa ZFS per l'unità di backup.

EDIT: l'unità non è direttamente collegata alla VM. Viene utilizzato come archivio dati VMware e la macchina virtuale ha un vmdk nell'archivio dati dell'unità SATA. Il datastore non è pieno (solo il 65% è pieno)

Ho effettuato l'accesso al server tramite SSH e ho scoperto che il backup di ieri sera era bloccato e zfs listche zpool listentrambi erano bloccati. Così ho aperto la console virtuale in ESXi ed è stato triste vedere:

Questo screenshot mi rende triste

(da1:mpt0:0:1:0): READ(10). CDC: 28 0 19 97 3a 50 0 0 2d 0
(da1:mpt0:0:1:0): CAM status: SCSI Status Error
(da1:mpt0:0:1:0): SCSI status: Check Condition
(da1:mpt0:0:1:0): SCSI sense: MEDIUM ERROR info:4862ec asc:11,4 (Unrecovered read error - auto reallocate failed)
(da1:mpt0:0:1:0): READ(10). CDC: 28 0 19 97 3a 50 0 0 2d 0
(da1:mpt0:0:1:0): CAM status: SCSI Status Error
(da1:mpt0:0:1:0): SCSI status: Check Condition
(da1:mpt0:0:1:0): SCSI sense: MEDIUM ERROR info:4862ec asc:11,4 (Unrecovered read error - auto reallocate failed)

Ho provato a riavviare la VM e ho ricevuto un messaggio che il sistema stava per essere riavviato per riavviarsi, e poi si è bloccato. (^ C appare ma non uccide shutdown). Non posso interrompere o kill -9i processi zpool list zfs listo rsync- Non succede nulla quando provo.

Questo indica che l'unità SATA di backup non funziona? O potrebbe essere solo un errore ESXi?
Come posso dire nel client vSphere se l'unità non funziona? Non ho visto alcuna indicazione, tutto in Hardware Health Status sembra buono e non ho visto nulla nella configurazione di archiviazione.
Come devo procedere da qui? Dovrei semplicemente riavviare la VM?

AGGIORNAMENTO: ho appena riavviato la VM. Dopo essere tornato online, lo zpool di backup era online, tuttavia:

root@timestandstill:/home/jnet# zpool status -v
  pool: backup
 state: ONLINE
status: One or more devices has experienced an error resulting in data
        corruption.  Applications may be affected.
action: Restore the file in question if possible.  Otherwise restore the
        entire pool from backup.
   see: http://www.sun.com/msg/ZFS-8000-8A
 scrub: none requested
config:

        NAME        STATE     READ WRITE CKSUM
        backup      ONLINE       0     0     0
          da1       ONLINE       0     0     0


errors: Permanent errors have been detected in the following files:

        /backups/someserver/home/someuser/public_html/somedir/calendar/someuser/calendars/somefile.ics

Mi sto inclinando pesantemente verso la sostituzione dell'unità ...

vmware-esxi drive-failure debian

— Josh
fonte

Tali errori indicano che una delle unità SATA ha riscontrato blocchi sufficienti per esaurire lo spazio di riallocazione dei blocchi. Quell'unità è difettosa e deve essere sostituita. Non sono sicuro di dove siano visualizzate le informazioni nel client vSphere, ma le voci del registro sono piuttosto chiare.

Se l'hardware lo consente, dovrebbe essere possibile effettuare un hot-swap. Altrimenti, dovrai chiudere tutto per eseguire il cambio. Se la VM non si è arrestata automaticamente dopo 30 minuti, è tempo di terminarla. È rischioso, ma se è davvero appeso non c'è molto da fare.

— sysadmin1138
fonte

Grazie @ sysadmin1138. Quindi, anche se quegli errori compaiono all'interno della VM, indica chiaramente un vero problema hardware? IE non è solo una stranezza di VMware?

— Josh,

@Josh Se hai presentato direttamente l'unità SATA alla VM, lo vedresti sicuramente. Per l'archiviazione con backup di file, ne sono meno certo; è possibile che il tuo archivio dati abbia esaurito lo spazio.

— sysadmin1138

Avrei dovuto chiarirlo. È un archivio con backup di file. L'archivio dati ha molto spazio: è un'unità da 1 TB e il VMDK è di 600 GB, nient'altro è sul disco. Ad ogni modo, è chiaramente qualcosa di sbagliato, quindi a meno che qualcun altro non mi dia una chiara spiegazione di ciò che potrebbe essere, sostituirò l'unità.

— Josh,