Abbiamo un paio di dozzine di server Proxmox (Proxmox gira su Debian) e circa una volta al mese, uno di loro avrà il panico del kernel e si bloccherà. La parte peggiore di questi blocchi è che quando si tratta di un server che si trova su uno switch separato rispetto al master del cluster, tutti gli altri server Proxmox su tale switch smetteranno di rispondere fino a quando non riusciremo a trovare il server che si è effettivamente arrestato in modo anomalo e riavviarlo.
Quando abbiamo segnalato questo problema sul forum Proxmox, ci è stato consigliato di eseguire l'aggiornamento a Proxmox 3.1 e lo stiamo facendo da diversi mesi. Sfortunatamente, uno dei server che abbiamo migrato a Proxmox 3.1 si è bloccato venerdì con un panico del kernel, e di nuovo tutti i server Proxmox che si trovavano su quello stesso switch erano irraggiungibili sulla rete fino a quando non siamo riusciti a individuare il server bloccato e riavviarlo.
Bene, quasi tutti i server Proxmox sullo switch ... Ho trovato interessante che i server Proxmox su quello stesso switch che erano ancora su Proxmox versione 1.9 non fossero interessati.
Ecco una schermata della console del server in crash:
Quando il server si è bloccato, i restanti server sullo stesso switch che eseguivano anche Proxmox 3.1 sono diventati irraggiungibili e hanno emesso quanto segue:
e1000e 0000:00:19.0: eth0: Reset adapter unexpectedly
e1000e 0000:00:19.0: eth0: Reset adapter unexpectedly
e1000e 0000:00:19.0: eth0: Reset adapter unexpectedly
...etc...
uname -a output del server bloccato:
Linux ------ 2.6.32-23-pve #1 SMP Tue Aug 6 07:04:06 CEST 2013 x86_64 GNU/Linux
pveversion -v output (abbreviato):
proxmox-ve-2.6.32: 3.1-109 (running kernel: 2.6.32-23-pve)
pve-manager: 3.1-3 (running version: 3.1-3/dc0e9b0e)
pve-kernel-2.6.32-23-pve: 2.6.32-109
Due domande:
Qualche indizio su cosa causerebbe il panico del kernel (vedi immagine sopra)?
Perché altri server sullo stesso switch e versione di Proxmox dovrebbero essere eliminati dalla rete fino al riavvio del server bloccato? (Nota: c'erano altri server sullo stesso switch che eseguivano la versione 1.9 precedente di Proxmox che non erano interessati. Inoltre, nessun altro server Proxmox nello stesso cluster 3.1 era interessato che non erano sullo stesso switch.)
Grazie in anticipo per qualsiasi consiglio.