Qualcuno può spiegare i "casi d'uso" per i grafici predefiniti di munin?

Quando si installa munin, attiva un set predefinito di plugin (almeno su Ubuntu). In alternativa, puoi semplicemente eseguire munin-node-configureper capire quali plugin sono supportati sul tuo sistema. La maggior parte di questi plugin tracciano dati diretti. La mia domanda non è di spiegare la natura dei dati (beh ... forse per alcuni) ma cosa cerchi in questi grafici?

È facile installare Munin e vedere grafici fantasiosi. Ma avere i grafici e non essere in grado di "leggerli" li rende totalmente inutili.

Elencherò i plugin standard che sono abilitati di default sul mio sistema. Quindi sarà una lunga lista. Per completezza, elencherò anche i plug-in che ritengo possano comprendere e fornirò una breve spiegazione di ciò che ritengo sia utilizzato. Motivo corretto se sbaglio con qualcuno di loro.

Vorrei quindi dividere questa domanda in tre parti:

Plugin in cui non capisco nemmeno i dati
Plugin in cui comprendo i dati ma non so a cosa dovrei cercare
Plugin che penso di capire

Plugin in cui non capisco nemmeno i dati

Questi possono contenere domande che non sono necessariamente rivolte solo a Munin. Non comprendere i dati di solito significa una lacuna nelle conoscenze fondamentali sui sistemi operativi / hardware ....;) Sentiti libero di rispondere con una risposta "giyf".

Questi sono plugin in cui posso solo indovinare cosa sta succedendo ... Non voglio quasi guardare a queste "ipotesi" ...

IO del disco per dispositivo (IO / secondo)
Che cos'è un IO. So che sta per input / output. Ma è così lontano.
Latenza del disco per dispositivo (attesa I / O media)
Non si sa quale sia un "I / O attesa"
Tempo di servizio IO
Questo è un gran casino ed è quasi impossibile vedere qualcosa nel grafico.

Plugin in cui comprendo i dati ma non so a cosa dovrei cercare

IOStat (blocchi / seconda lettura / scritta)
presumo, la cosa da cercare qui sono i picchi? Ciò significherebbe che il dispositivo è in uso intenso?
Entropia disponibile (byte)
Presumo che questo sia importante per la generazione di numeri casuali? Perché dovrei rappresentare questo? Finora il valore è sempre stato pressoché costante.
VMStat (processi in esecuzione / I / O in sospensione)
Qual è la differenza tra questo e il grafico "processi"? Entrambi mostrano processi in esecuzione / inattività, mentre il grafico "Processi" sembra avere più dettagli.
Throughput del disco per dispositivo (byte / secondo letto / scritto)
Qual è la differenza tra questo e il grafico "IOStat"?
utilizzo della tabella degli inode
Cosa devo cercare in questo grafico?

Plugin che penso di capire

Indovinerò alcune cose qui ... correggimi se sbaglio.

Utilizzo del disco in percentuale (percentuale)
Quanto spazio su disco viene utilizzato / rimanente. Poiché questo si avvicina al 100%, dovresti considerare di ripulire o estendere la partizione. Questo è estremamente importante per la partizione di root.
Velocità effettiva del firewall (pacchetti / secondo)
Il numero di pacchetti che attraversano il firewall. Se questo si verifica per un periodo di tempo più lungo, potrebbe essere un segno di un attacco DOS (o stiamo semplicemente ricevendo un file di grandi dimensioni). Può anche darti un'idea delle prestazioni del tuo firewall. Se si sta livellando e hai bisogno di più "potenza", dovresti considerare il bilanciamento del carico. Se si sta livellando e vedi una correlazione con il carico della CPU, potrebbe anche significare che l'hardware non è abbastanza veloce. Le correlazioni con l'utilizzo del disco potrebbero indicare destinazioni LOG eccessive nella configurazione FW.
errori eth0 (pacchetti in / out)
Errori di rete. Se questo valore aumenta, potrebbe essere un segno di hardware difettoso.
traffico eth0 (bit / secondo in / out)
Traffico di rete non elaborato . Ciò dovrebbe essere correlato alla velocità effettiva del firewall.
numero di thread
Un valore sempre crescente potrebbe indicare un processo che non chiude correttamente i thread. Indagare!
processi
Ripartizione dei processi attivi (incluso il sonno). Un rapido picco qui potrebbe indicare una bomba a forcella. Un valore lento ma sempre crescente potrebbe indicare un'applicazione che genera sottoprocessi ma non li chiude correttamente. Indagare utilizzando ps faux.
priorità del processo
Mostra la distribuzione delle priorità del processo. Avere solo processi ad alta priorità non è di grande utilità. Prendi in considerazione la priorità di alcuni.
utilizzo della cpu
Abbastanza semplice. Se si verifica un picco, è possibile che si verifichi un attacco o che un processo stia eseguendo il hogging della CPU. Se sta lentamente aumentando e si avvicina al massimo nelle normali operazioni, dovresti prendere in considerazione l'aggiornamento del tuo hardware (o il bilanciamento del carico).
utilizzo della tabella dei file
Numero di file aperti attivamente. Se questo sta raggiungendo il limite massimo, potresti avere un'apertura del processo, ma non rilasciare correttamente i file.
carico medio
Mostra un valore riepilogativo per il carico del sistema. Dovrebbe essere correlato all'utilizzo della CPU. Valori crescenti possono provenire da diverse fonti. Cerca correlazioni con altri grafici.
utilizzo della memoria
Una rappresentazione grafica della tua memoria. Finché hai molti buffer + cache + inutilizzati, stai bene.
swap in / out
Mostra l'attività sulla partizione di swap. Dovrebbe essere sempre 0. Se vedi attività su questo, dovresti aggiungere più memoria al tuo computer!

linux monitoring munin

— exhuma
fonte

Ottima domanda, facilmente applicabile ai cactus e ad altre app grafiche. I grafici sembrano spesso fantastici, ma è abbastanza difficile capire cosa significano, e più che aspetto ha qualcosa che necessita di ulteriore attenzione.

— Dunxd,

Per "Perché dovrei rappresentare questo grafico? Finora il valore è sempre stato quasi costante". parte, ricorda che la maggior parte delle informazioni sono di solito preziose solo in caso di problemi.

— Steve Schnepp,

IO del disco per dispositivo (IO / secondo)

Con i dischi rigidi tradizionali questo è un numero molto importante. L'operazione di I / O è un'operazione di lettura o scrittura su disco. Con i mandrini rotazionali puoi spostarti da dozzine a forse 200 IOPS al secondo, a seconda della velocità del disco e del suo modello di utilizzo.

Questo non è tutto: i moderni sistemi operativi hanno programmatori I / O che cercano di unire più richieste I / O come una sola e rendere le cose più veloci in quel modo. Anche i controller RAID e così via eseguono un riordino delle richieste di I / O intelligenti.

Latenza del disco per dispositivo (attesa IO media)

Quanto tempo è trascorso dall'esecuzione della richiesta I / O su un singolo disco per ricevere effettivamente i dati da lì. Se questo si aggira intorno a un paio di millisecondi, stai bene, se sono dozzine di ms, allora stai iniziando a vedere il tuo sottosistema del disco sudare, se sono centinaia di più ms, sei in grossi problemi o almeno hai un, molto sistema lento.

Tempo di servizio IO

Il rendimento complessivo del sottosistema di dischi (possibilmente contenente molti dischi).

IOStat (blocchi / seconda lettura / scrittura)

Quanti blocchi di dischi sono stati letti / scritti al secondo. Cerca picchi e anche la media. Se la media inizia a raggiungere quasi il throughput massimo del sottosistema del disco, è tempo di pianificare l'aggiornamento delle prestazioni. In realtà, pianificare in questo modo prima di quel punto.

Entropia disponibile (byte)

Alcune applicazioni vogliono ottenere dati casuali "veri". Il kernel raccoglie quella "vera" casualità da diverse fonti, come l'attività della tastiera e del mouse, un generatore di numeri casuali trovato in molte schede madri o persino da file video / musicali (l'entropyd video e l'entropyd audio possono farlo).

Se il sistema esaurisce l'entropia, le applicazioni che desiderano quei dati si bloccano fino a quando non ottengono i loro dati. Personalmente in passato l'ho visto accadere con il demone Cyrus IMAP e il suo servizio POP3; ha generato una lunga stringa casuale prima di ogni accesso e su un server occupato che ha consumato il pool di entropia molto rapidamente.

Un modo per sbarazzarsi di quel problema è cambiare le applicazioni per usare solo dati semi-casuali (/ dev / urandom), ma questo non è più tra questi argomenti.

VMStat (esecuzione / processi di sospensione I / O)

Non ci ho pensato prima, ma penso che questo ti dica delle statistiche I / O per processo, o principalmente se stanno eseguendo o meno un I / O e se quell'I / O sta bloccando l'attività di I / O o non.

Throughput del disco per dispositivo (byte / secondo letto / scritto)

Questo è puramente byte letti / scritti al secondo, e più spesso questa è una forma più leggibile dall'uomo rispetto ai blocchi , che possono variare. Le dimensioni del blocco possono differire a causa dei dischi utilizzati, del file system (e delle sue impostazioni) utilizzati e così via. A volte la dimensione del blocco può essere di 512 byte, altre volte 4096 byte, a volte qualcos'altro.

utilizzo della tabella degli inode

Con i file system con inode dinamici (come XFS), niente. Con i file system con mappe di inode statiche (come ext3), tutto. Se si dispone di una combinazione di inode statici, un enorme file system e un numero enorme di directory e piccoli file, è possibile che si verifichi una situazione in cui non è possibile creare più file su quella partizione, anche se in teoria rimarrebbe molto spazio libero. Nessun inode gratuito == cattivo.

— Janne Pikkarainen
fonte

considerando l'utilizzo dell'inode. Attualmente sto usando ext4, e gli max-indodes e gli open-inode in quel grafico sono estremamente vicini (aperto: dimensione della tabella 31.11k: 32.12k). Il che mi lascerebbe con circa 1k di inode rimanenti. Dato che il sistema è stato appena installato, non credo che ciò induca a un problema. Ext4 sta allocando in modo dinamico gli inode? Non ho trovato nulla al riguardo su Google ...

— Exhuma,

Vedi df -i, ti segnala l'attuale utilizzo dell'inode. ext4 ha corretto gli inode, ad esempio i miei rapporti Fedora 16 per la mia partizione di rootrootfs 3276800 238083 3038717 8% /

— Janne Pikkarainen,

Hmmm ... interessante. Ciò suggerisce che il grafico di Munin non è corretto. Inoltre, non mi ero reso conto che il grafico di Munin mostra solo un valore. Non dovrebbe mostrare un valore per file system per essere utile? Vedi anche lo df -iscreenshot ( i44.tinypic.com/oixkiq.png ) contro il munin-graph ( i39.tinypic.com/dxl64z.png )

— exhuma

... Il valore nel grafico (25.57k) non è in realtà visto dfnell'output.

— exhuma,

Dopo ulteriori indagini, vedo che il plugin Munin open_inodes, prende il valore da /proc/sys/fs/inode-nr. È un kernel e non un valore di file system. Un po 'più googling mi ha indicato questo: mjmwired.net/kernel/Documentation/sysctl/fs.txt#119 Da quel documento suppongo che il limite potrebbe essere trovato in inode-max. Ma questo file non esiste sul mio sistema. È possibile che ciò non sia più pertinente per i kernel più recenti? Ciò mi consentirebbe di rimuovere questo grafico dalla mia istanza di munin!

— exhuma,