Abbiamo un server Graphite per raccogliere dati tramite collectd, statsd, JMXTrans ... Da alcuni giorni, abbiamo spesso buchi nei nostri dati. Scavando i dati che abbiamo ancora, possiamo vedere un aumento delle dimensioni della cache del carbonio (da 50K a 4M). Non vediamo un aumento del numero di metriche raccolte (le metriche ricevute sono stabili a circa 300 K). In media, il numero di query è aumentato da 1000 a 1500.
Stranamente, cpuUsage diminuisce leggermente dal 100% (abbiamo 4 CPU) al 50% quando aumenta la dimensione della cache.
Stranamente, vediamo un aumento del numero se gli ottetti vengono letti dal disco e una diminuzione del numero di ottetti scritti.
Abbiamo configurato carbon principalmente con valori predefiniti:
- MAX_CACHE_SIZE = inf
- MAX_UPDATES_PER_SECOND = 5000
- MAX_CREATES_PER_MINUTE = 2000
Ovviamente, qualcosa è cambiato nel nostro sistema, ma non capiamo cosa, né come possiamo trovare questa causa ...
Qualsiasi aiuto ?