Uno strumento sconosciuto sta cancellando le nostre macchine virtuali e non possiamo identificarlo


18

Una vista della console di una VM Windows 2008 R2, su vSphere mostra la seguente schermata:

Screengrab del programma

"Operazione 2 di 2" "Pulitura del disco"

Qualcuno può consigliare cos'è questo programma?

Alcune informazioni su questo mistero:

Un certo numero di macchine virtuali sono ora effettuate. Il sintomo è dopo il riavvio del messaggio "Sistema operativo non trovato".

  • Le macchine virtuali sono in esecuzione su ESXi. Le macchine virtuali sono in esecuzione su un particolare archivio dati
  • Netapp NFS Il montaggio del disco in una casella di lavoro non mostra alcuna tabella delle partizioni, non è ancora stato possibile eseguire il dump esadecimale.
  • La macchina virtuale non è stata ripristinata a fondo, dovrebbe essere un ripristino software avviato dal sistema operativo
  • Non è stato installato alcun iso. Non vi era alcun accesso "non guest" alla VM, quindi avrebbe dovuto essere RDP o simile
  • I backup vengono eseguiti utilizzando il software di backup netapp durante la notte
  • NFS in questione è sottoposto a thin provisioning sul back-end (livello di array) e ha esaurito lo spazio subito dopo aver riscontrato questi problemi.

1
Hai confermato che non esiste un server PXE configurato da nessuna parte che potrebbe farlo?
Dan,

@DAN no PXE viene rilevato al riavvio della VM, quindi "nessun sistema operativo trovato" a meno che non sia una configurazione pxe molto mirata. Inoltre, NFS sta esaurendo lo spazio di archiviazione / POTREBBE / essere causato da una scrittura su disco completa di questo strumento
Rqomey,

1
Questo è limitato alle macchine virtuali Windows o a tutte le uniche macchine virtuali che hai su questo host?
MDMoore313,

9
Basandosi esclusivamente sul design della finestra, le stringhe in essa contenute, come una manciata di schermate simili, sembra che lo strumento sia qualcosa creato da Acronis. Ecco un esempio di uno strumento creato da Acronis per Seagate (fare clic su "Avanti" alcune volte per vederlo) che sembra molto simile.
Moshe Katz,

1
Ho visto un layout dell'interfaccia utente simile in Acronis Disc Director. Apparentemente ha una funzione di "pulizia del disco" (cercata su Google), che non ho mai usato. Sembra essere in esecuzione sul tuo ospite. Lo si configura tramite GUI (forse ha anche un exe a riga di comando) e questa roba accade al riavvio.
Daniel F,

Risposte:


10

Sfortunatamente sembra che potremmo non arrivare alla fine di ciò che era l'applicazione, ma per ottenere un valore da questo incidente, volevo creare una risposta di riferimento. Questo è VMware e la gestione del layer virtuale. Molti amministratori sono separati, e non riescono ad accedere rapidamente agli ospiti o allo spazio di archiviazione, e questo è per loro :)

http://support.seagate.com/kbimg/flash/laptop/Laptop.swf sembra essere la corrispondenza più vicina a un'applicazione reale, che @MosheKatz ha trovato.

Se ciò dovesse accadere in futuro, l'indagine dovrebbe essere la seguente:

  • Notate alcune ma non tutte le macchine virtuali si sono arrestate in modo anomalo. Sospetti che ciò sia dovuto a un problema di archiviazione (poiché di solito è la causa più probabile)
  • Prima prova a isolare un fattore comune. Tutte le macchine virtuali in crash condividono lo stesso archivio dati? In questo caso lo erano, ma alcune macchine erano ok, quindi abbiamo escluso ovvi problemi hardware.
  • Controlla tutte le VM rotte per vedere se c'era un fattore comune (tempo, funzione ecc.). In questo caso non c'era.
  • Controlla altri eventi insoliti. Qualcosa ha sollevato una bandiera qui:

    • L'archiviazione NFS era thin-backed (a livello di array). Ciò significa che sebbene ad es. 200 GB vengono presentati agli host ESXi, infatti sono disponibili solo 100 GB. Tuttavia, solo l'array ha questa conoscenza. Ciò che abbiamo riscontrato è stato il numero di macchine virtuali in pausa poiché avevano esaurito lo spazio su disco. Abbiamo pensato che questa potrebbe essere stata la causa principale, quindi la nostra prima azione è stata quella di allocare più spazio di archiviazione sul back-end, per rimuovere questo problema.
  • Una volta risolto il problema (una semplice modifica dell'interfaccia utente) e il riavvio corretto delle macchine virtuali in pausa, siamo tornati al problema originale. Abbiamo montato i dischi virtuali dalle macchine virtuali rotte a una macchina virtuale funzionante e abbiamo visto che non c'erano tabelle di partizione sui dischi. Non avevamo a disposizione un visualizzatore esadecimale, quindi dovevo presumere che i dischi fossero vuoti.

  • Il sistema di monitoraggio ha avvisato di una nuova macchina virtuale che non ha risposto. Questo è stato fantastico, dato che un carico di macchine virtuali aveva pochi minuti prima di non essere più reattivo a causa del problema di spazio su disco, quindi il fatto che questa nuova macchina virtuale fosse trovata rapidamente era un segno di buona amministrazione del monitoraggio.

  • Abbiamo aperto una console e controllato l'ospite, e abbiamo visto la schermata sopra.

    • A questo punto sono andato nella chat room dei guasti del server per vedere se il programma poteva essere identificato, mentre il mio collega di archiviazione ha controllato tutti i log e gli eventi del layer virtuale, per assicurarsi che non ci fossero operazioni di archiviazione in esecuzione dalla nostra area.
  • Quello che avremmo dovuto fare era sospendere la VM, consentire la scrittura del file di sospensione e analizzare il dump per vedere se il programma in esecuzione potesse essere identificato. Sospendi la VM nel PDF principale VMware KB

Alla fine, lo sapevamo e gli strumenti di infrastruttura virtuale non avrebbero riportato all'interno di un guest come stava facendo quanto sopra. Abbiamo potuto vedere che non era montato alcun ISO e nessun evento registrato sulla VM. Abbiamo potuto vedere che la VM non era "ciclo di alimentazione", solo un riavvio graduale (questo è invisibile per l'infrastruttura sottostante). Sapevamo che non era il lato di archiviazione come lo avevamo già escluso. Sospettavamo che non fosse automatizzato come stava accadendo nel corso di alcune ore su macchine virtuali specifiche. Abbiamo supposto che non fosse dannoso, perché la console avrebbe segnalato Disk Wipe se fosse :)

Quindi, la conclusione è stata una cancellazione del disco avviata dall'utente. Per quanto riguarda la mia indagine, ma spero che l'abbia trovata utile.

Lezioni imparate:

  • Eseguire il backup e testare i ripristini
  • Assicurati che tutti gli utenti, in particolare gli utenti dell'amministratore, sappiano che stanno lavorando in un ambiente con thin provisioning e che dovrebbero evitare qualsiasi cosa come la formattazione del disco di scrittura (ad es. Scrivere un sacco di 1
  • Avere un buon sistema di monitoraggio in atto.
  • E una nuova per me: in qualsiasi grande ambiente virtuale, avere una VM pronta per gli strumenti, anche spenta, con strumenti di diagnostica installati; prestazioni, archiviazione di rete. Se questo fosse disponibile, avremmo potuto montare ed eseguire un dump esadecimale sul disco danneggiato per vedere se era veramente vuoto o mancava un mbr. Avremmo potuto anche vedere se fosse stato scritto con 1.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.