Errore del disco hardware in ESX Guest, su un'unità supportata da vmfs ... come è possibile?


8

Come può un ospite all'interno di ESX trovare problemi come questo?

[ 40.601502] end_request: critical target error, dev sdg, sector 430203456
[ 40.601563] sd 2:0:6:0: [sdg] Unhandled sense code
[ 40.601582] sd 2:0:6:0: [sdg] Result: hostbyte=invalid driverbyte=DRIVER_SENSE
[ 40.601622] sd 2:0:6:0: [sdg] Sense Key : Hardware Error Sense Key : Hardware Error [current] [current] 
[ 40.601661] sd 2:0:6:0: [sdg] Add. Sense: Internal target failureAdd. Sense: Internal target failure
[ 40.601695] sd 2:0:6:0: [sdg] CDB: Write(10)Write(10):: 2a 2a 00 00 02 19 64 a4 05 62 c0 80 00 00 00 00 40 40 00 00
  • fisicamente i dati sono su vmfs memorizzati in un array raid6 (adaptec 5805), che sembra felice
  • anche l'host ESX non registra alcun problema
  • la dimensione del disco indicata dal guest sembra uguale alla dimensione del disco fornita
  • tramite esx l'ospite ha 9 "unità" uguali collegate e solo 2 presentano questo problema

1
Forse un bug nel livello di emulazione I / O? Hai provato a cambiare il tipo di controller SCSI del guest per vedere se cambia il comportamento? L'accesso al settore specificato riproduce l'errore? Usa dd if=/dev/sdg bs=512 skip=430203455 count=1per rileggere o semplicemente badblocks -w -b 512 /dev/sdg 430203457 430203455per fare un ciclo di lettura-testwrite-rewrite se ti senti coraggioso.
the-wabbit il

Quale versione del kernel hai lì? Aggiorna il tuo kernel e verifica se l'errore persiste.
Sacx,

Risposte:


1

Ho sperimentato cose simili sul volume di backup per MS SQL nel guest Win 2008 in ESX 4.0: è un volume non elaborato esposto dal filer NetApp.

Il SO guest segnala (e continua a segnalare) settori danneggiati su quel volume.
Penso che ciò sia accaduto a causa di troppe operazioni di scrittura I / O, timeout temporaneo o sovraccarico del filer.
Non ci sono più settori danneggiati segnalati. Lo "scrubing del disco" di NetApp dice che tutto è ok. Nessun errore del filer segnalato.

Ma ricreamo comunque questo volume e vedremo se risolve questo problema.

E i tuoi altri volumi su questo filer? Puoi controllare questo volume con il comando "badblocks / dev / sdg"? (attenzione: sovraccarico di lettura enorme)


1

Dopotutto era un problema hardware / firmware. Mentre Adaptec 5805 (con l'ultimo firmware) riportava tutti i volumi RAID6 in uno stato ottimale, ha anche riportato un volume contenente "Strip non riuscite". L'effetto di ciò sembra essere che quella parte del volume RAID6 diventa illeggibile (causando gli errori citati nella domanda). ESX non sembra vederlo direttamente, ma l'esecuzione dd if=/dev/zero of=file-on-damaged-volumediretta sulla console ESXi si è conclusa con un errore di I / O mentre c'era ancora molto spazio sul volume.

Nessuna quantità di arcconfify / confirm_fix viene eseguita su volumi e dispositivi fisici sono stati in grado di rilevare o correggere qualsiasi cosa ... Alla fine ho spostato tutti i dati dal volume e li ho ricreati a livello di Adapec. Ora tutto va bene, ma la mia fiducia nella capacità di adaptec di proteggere i miei dati è gravemente danneggiata.


1
Questo è abbastanza coerente con la procedura Sun / Oracle per tali situazioni . C'è anche questo articolo FAQ di Adaptec sulle strisce difettose che fornisce alcune informazioni di base su come si verificano le strisce difettose e cosa si può fare per prevenirle.
the-wabbit,

Sì, l'articolo Sun / Oracle mi ha portato sulla strada giusta (triste). Avevamo un disco guasto in questo array, ma era raid6, quindi anche in questo caso c'era ridondanza, nessuno dei successivi controlli dei media ha rivelato errori con i dischi rimanenti ... anche il controller Adapec ha un BBU quindi non vedo davvero nessuna scusa per questo comportamento :-( Non abbiamo mai avuto problemi del genere con i nostri controller Areca.
Tobi Oetiker

Non uso quasi mai i controller Adaptec e mantengo principalmente l'archiviazione LSI, ma questa è la prima volta che inciampo anche su "bad strip". Mi chiedo se questo è qualcosa di molto specifico per l'implementazione di Adaptec.
the-wabbit
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.