Abbiamo una configurazione dell'ambiente MSMQ piuttosto grande che oggi ha deciso di fermarsi.
(Tutto è una macchina virtuale in vSphere 4.0 Update 1)
Esistono 8 server Web che ricevono dati dai client in rete. Tutte queste macchine hanno MSMQ installato e inviano semplicemente il messaggio MSMQ al server MSMQ principale. I messaggi sono attualmente accumulati nella coda in uscita. Queste macchine sono Windows 2008 Web Edition con 2 GB di RAM e 2 vCPU.
Abbiamo un server MSMQ cluster (Windows Cluster Server) che riceve i messaggi dagli 8 server Web. Non vi è alcun limite alla quantità di dati che possono essere nelle code. Il disco rigido è composto da 50 concerti e ci sono 46 concerti di spazio libero. Queste macchine sono Windows 2008 Enterprise Edition con 8 GB di RAM e 4 vCPU. Il cluster aveva 2 vCPU ma il carico della CPU stava raggiungendo il 100%, quindi ho aumentato entrambi i nodi del cluster di Windows a 4 vCPU.
Esistono 4 server di app che leggono i messaggi dalle code e li elaborano.
Normalmente tutto funziona perfettamente, ma non oggi.
Questa mattina tutto procede molto lentamente. Gli 8 server Web mostrano attualmente fino a 300.000 messaggi nelle code in uscita. Il server cluster mostra attualmente oltre un milione di messaggi nelle code (alcuni arrivano a 200k).
Se guardo perfmon agli 8 web server, mostra che sto calcolando in media 2 messaggi inviati al secondo. Se guardo perfmon sul cluster mostra che ~ 7 messaggi al secondo stanno arrivando nel cluster.
I computer che stanno eseguendo la lettura non ricevono molti messaggi ciascuno. I servizi più veloci ricevono 10-12 messaggi al secondo, i più lenti mostrano 0 o 1.
Le uniche modifiche recentemente sono che abbiamo modificato il numero di server Web front-end da 4 a 8. L'abbiamo fatto circa 2 settimane fa senza problemi. Martedì li abbiamo spenti per vedere come i restanti 4 potevano gestire il carico. Mercoledì abbiamo riacceso le quattro macchine più recenti.
Il disco sul cluster mostra un IO molto basso e nessun accodamento.
Per sicurezza, ho aggiornato PowerPath alla versione più recente, ma questo non ha aiutato nessuno.
Gli 8 server Web si trovano su una vLAN e i server Cluster e i server delle app si trovano su una seconda vLAN. Non ci sono firewall tra le vLAN.
E non c'è nulla di utile nell'applicazione o nei registri di sistema su nessuna delle macchine.