Rimozione istantanea incredibilmente lenta


13

Ho una scatola ESXi con spazio di archiviazione HP LeftHand esposto tramite iSCSI.

Ho una macchina virtuale con un disco da 1 TB, di cui vengono consumati 800 GB. Il disco ha un grosso provisioning nell'archiviazione LeftHand.

Un'istantanea era aperta sulla VM (in modo che Veeam Backup and Recovery potesse fare la sua parte) ed era aperta per circa 6 ore. Durante questo periodo è stato creato un disco delta di circa 5 GB.

La rimozione dell'istantanea ora ha richiesto oltre 5 ore e non è ancora completa. L'array di archiviazione non riporta praticamente alcun IOPS su quell'array (circa 600, che è rumore di fondo), nessun throughput (circa 8 MB / sec, che di nuovo - rumore di fondo), una profondità media della coda di 9.

In altre parole, il processo di consolidamento dell'istantanea non sembra essere legato all'IO, non riesco a vedere nulla che causi la rimozione dell'istantanea così dannatamente lenta. Si sta lavorando, a giudicare dal guardare i file delta.

Qualcos'altro che dovrei guardare sul perché questa istantanea (relativamente piccola) è così lenta da rimuovere?


Come per la documentazione VMWare , sto guardando in ls -lh | grep -E "delta|flat|sesparse"questo momento e vedo due file delta che stanno cambiando:

-rw-------    1 root     root      194.0M Jun 15 01:28 EXAMPLE-000001-delta.vmdk
-rw-------    1 root     root      274.0M Jun 15 01:27 EXAMPLE-000002-delta.vmdk

Sto deducendo che un file di snapshot viene consolidato mentre l'altro raccoglie delta durante il processo di consolidamento. Quindi quello nuovo viene consolidato e un altro delta viene creato durante quel processo.

Le dimensioni dei file sono in calo con ogni iterazione (beh, la maggior parte delle iterazioni), in modo da suppongo che alla fine di questa procedura di consolidamento completerà (forse avrò bisogno di prendere la macchina virtuale dalla rete per 30 minuti per consentire questa finitura senza generare alcuna modifica) .

Il consolidamento richiede circa 2 minuti per cento mega di delta. Ciò non è mai avvenuto prima. La rimozione dell'istantanea con un normale backup Veeam richiede circa 40 minuti (quindi certamente non veloce, ma non così lento).


Dopo 6 ore e 2 minuti, l'istantanea viene finalmente rimossa. Tuttavia, vorrei comunque sapere se esiste un modo per risolvere normalmente questo tipo di problema (al di fuori delle prestazioni di archiviazione).


Non posso fare a meno di notare che 8 Mbit / secondo è abbastanza vicino a 10 Mbit / sec in rete meno un sovraccarico. Qualche possibilità che si tratti di un problema di rete sul collegamento iSCSI: il problema con la patch non corretta inizia a fallire? È un singolo collegamento, un singolo host, altrimenti l'host sta eseguendo OK per letture / scritture sostenute? È possibile verificare la presenza di errori nella porta dello switch?
Tessellating Heckler,

@TessellatingHeckler Ho appena fatto alcuni test e posso ancora ottenere circa 1,5 Gbit / sec in sequenza dall'array, che è quello che mi aspetterei di ottenere da esso in circostanze normali. Ieri sera la rimozione dell'istantanea è durata tre minuti, il che è di gran lunga il più veloce che io abbia mai visto (normalmente è circa 10 volte così a lungo, ma ieri sera c'è stata una grande partita di calcio, quindi sospetto che nessuno usasse i sistemi dopo ore quando vengono eseguiti i backup, quindi il delta minuscolo e il tempo di commit ridotto). Quindi può farlo rapidamente, solo che una volta non l'ha fatto.
Mark Henderson

Hmm. Hai il controllo IO di archiviazione VMware in esecuzione e l'archivio dati è condiviso con altre macchine virtuali? Qualche possibilità stava colpendo qualche limite di limitazione / soft lì, senza stressare l'host o l'hardware SAN?
TessellatingHeckler,

Versione ESXi e vCenter?
Nils,

@Nils 5.5 per entrambi
Mark Henderson

Risposte:


2

Comprendo che la rimozione dell'istantanea ESXI può (e di solito lo fa) impiegare molto tempo. Prima di poter rimuovere l'istantanea, le modifiche dalla vecchia istantanea devono essere scritte nell'istantanea successiva in ordine. Mi è stato insegnato a eliminare sempre le istantanee dalla più vecchia alla più recente per consentire a questo processo di essere eseguito nel modo più rapido ed efficiente possibile.

Naturalmente, maggiore è il numero di modifiche tra le istantanee, maggiore sarà il tempo necessario per l'unione.


1
Giusto, tranne 6 ore per rimuovere un'istantanea da 5 GB è assurdo. Come ho già detto, di solito sono necessari circa 40 minuti per rimuovere l'istantanea e ho persino la sensazione che 40 minuti siano troppo dannatamente lenti. Questa era l'unica istantanea su quella VM, e anche la rimozione delle istantanee è cambiata nelle versioni successive di ESXi in quanto l'ordine in cui sono state rimosse non ha importanza.
Mark Henderson

2
Ho già visto il comportamento dell'istantanea lenta prima con un piccolo I / O in memoria ma non l'ho mai rintracciato in una causa. Ho sempre pensato che l'hypervisor stesse masticando i delta in memoria. (Le macchine in questione utilizzavano l'archiviazione collegata direttamente o avrei potuto esaminare anche i problemi di SAN, ma l'ho sempre assegnato a grandi delta o codice non ottimizzato nel sottosistema di snapshot di VMWare).
voretaq7,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.