Per quanto riguarda la tua domanda: sì, perderai l'accesso per tutte le macchine all'interno di questo host fisico. Ovviamente dipende da quale componente è fallito. Se è un disco - è un tipo di problema, se è una scheda madre - è molto più semplice. In generale, il ripristino dell'hardware è più semplice poiché l'hypervisor è indipendente dall'hardware. Al momento ci sono molte tecnologie specifiche del fornitore che puoi usare per avere servizi altamente disponibili.
Pool di risorse (vmware) - NON sono in grado di aggregare più risorse dell'host fisico (CPU, memoria, ecc.) Come qualcuno menzionato sopra, quindi se hai 2 host fisici (diciamo core quad 1CPU senza hyperthreading - 8 GBRAM ciascuno) NON sarà possibile avere 5vCPU-12Gb VM lì. I pool di risorse sono logici, non sono in grado di creare sistemi di supercalcolo. In questo momento, questo è un modo per controllare l'utilizzo delle risorse.
Disponibilità (vmware): è possibile utilizzare tecnologie come High Availability (HA) che consentono di ripristinare automaticamente (in base alla mia esperienza entro 1-2 minuti ) tutte le VM nel cluster automaticamente, se si utilizza Storage Array (NAS, iSCSI, FC) e conserva tutti i file VM lì. Più di HA funziona solo nel caso in cui CPU, RAM, scheda madre si guastino, è ovvio che non funzionerà se l'array di archiviazione non funziona. Per evitare guasti ai controller / RAID, le persone usano la replica, il mirroring dei LUN di archiviazione, ecc.
Se il ripristino entro 1-2 minuti non è un'opzione, esistono tecnologie come Fault Tolerance (FT) che consentono di ottenere tempi di inattività ZERO della VM in caso di errore mantenendo una copia shadow (in esecuzione) della VM configurata. Ma questa tecnologia ha anche molte restrizioni: il problema di tollerare errori VM con più vCPU non è completamente risolto.
Nel complesso, ogni soluzione dipende dal tuo obiettivo.