Ho una macchina a 24 core con 94,6 GB di RAM con Ubuntu server 10.04. La confezione presenta un'alta percentuale di iowait, a differenza di un altro server che ha (4 core) che eseguono gli stessi tipi e quantità di processi. Entrambe le macchine sono collegate a un file server VNX Raid, la macchina a 24 core tramite 4 schede FC e l'altra tramite 2 schede Ethernet Gigabit. La macchina a 4 core attualmente supera le prestazioni della macchina a 24 core, ha un maggiore utilizzo della CPU e una percentuale inferiore di iowait.
In 9 giorni di operatività,% iowait è in media al 16% ed è abitualmente superiore al 30%. Il più delle volte l'utilizzo della CPU è molto basso, circa il 5% (a causa dell'elevato iowait). Vi è ampia memoria libera.
Una cosa che non capisco è il motivo per cui tutti i dati sembrano attraversare il dispositivo SDC piuttosto che passare direttamente dai motori di spostamento dei dati:
avg-cpu: %user %nice %system %iowait %steal %idle
6.11 0.39 0.75 16.01 0.00 76.74
Device: tps Blk_read/s Blk_wrtn/s Blk_read Blk_wrtn
sda 0.00 0.00 0.00 1232 0
sdb 0.00 0.00 0.00 2960 0
sdc 1.53 43.71 44.54 36726612 37425026
dm-0 0.43 27.69 0.32 23269498 268696
dm-1 1.00 1.86 7.74 1566234 6500432
dm-2 0.96 1.72 5.97 1442482 5014376
dm-3 0.49 9.57 0.18 8040490 153272
dm-4 0.00 0.00 0.00 1794 24
dm-5 0.00 0.00 0.00 296 0
Un altro pezzo del puzzle è che le attività vanno frequentemente in modalità di sonno ininterrotta (in alto), probabilmente anche a causa del blocco di io.
Cosa posso guardare per aiutare a diagnosticare il problema? Perché tutti i dati passano attraverso / dev / sdc? È normale?
AGGIORNARE:
La connessione di rete e la capacità di lettura / scrittura di VNX sono state escluse come strozzature. Siamo in grado di raggiungere una velocità di 800 MB / s con le 4 schede di rete collegate (round-robin). Le schede Fibre Channel non sono ancora in uso. Il VNX è in grado di gestire l'IO (dischi RAID6, 30x2TB 7,2kRPM per pool in due pool (60 dischi in totale), circa il 60% letto).
Ignora sopra su dm e sdc, sono tutti dischi interni e non fanno parte del problema.
Pensiamo che il problema potrebbe riguardare i montaggi nfs o TCP (abbiamo 5 montaggi su 5 partizioni sul VNX), ma non sappiamo esattamente cosa. Qualche consiglio?
dm
sta per Device Mapper, non data mover. Questa domanda probabilmente farebbe molto meglio a Server Fault.