Come trovare la fonte di maggiore latenza?


14

Ho una configurazione di monitoraggio su diversi dispositivi nel nostro ufficio. Il tempo di risposta del ping ai piccoli switch di accesso è generalmente 1-4ms ... A partire dalle 3AM questa mattina, questo è salito alle stelle a 300ms in media.

Dove si inizia a guardare in una situazione come questa? Quali cose posso osservare nello switch per trovare l'origine della latenza?

NOTA: non è correlato al carico. L'utilizzo della larghezza di banda di tutti i collegamenti è normale e inalterato, la maggior parte dei collegamenti è poco utilizzata. Inoltre, il monitoraggio è locale per i dispositivi che segnalano la latenza, quindi qui non è presente alcun fattore WAN.


3
Supponendo che si tratti di uno switch Cisco IOS ... Si prega di pubblicare show proc cpu historyper lo switch con i tempi di ping elevati. Se la CPU è costantemente alta, o spicca regolarmente, eseguishow proc cpu sort
Mike Pennington il

La latenza è solo verso il piano di controllo dell'interruttore o ottieni la stessa latenza quando esegui il ping di qualcosa dietro l'interruttore?
ytti,

@MikePennington - imgur.com/a/gfX9q#0 - è fantastico! Sembra che picchi abbastanza in alto in modo coerente anche se in media è basso ..
AL

@Ytti - non intendevo postare questo su una riga separata .. comunque - Quindi ho approfondito questo. cp <-> la risposta cp è in realtà bassa dalla distribuzione all'accesso, o almeno lo era al momento del test. Da una porta del livello di accesso ai dispositivi sugli switch del livello di accesso è dove stiamo assistendo all'estrema latenza.
AL

@ user1353, grazie ... quell'imgur che hai pubblicato non è abbastanza alto da causare tempi di ping costantemente aumentati dalla CPU su quell'interruttore
Mike Pennington,

Risposte:


6

Innanzitutto, la latenza non è direttamente legata alla larghezza di banda. Esistono molti motivi per cui un dispositivo ritarda un pacchetto diverso da un collegamento congestionato.

Hai tentato un traceroute? Questo ti mostrerà la latenza tra i luppoli, se stai cercando un confine L3 come sospetto.

È inoltre possibile verificare se uno dei dispositivi nel percorso ha un uso significativo di CPU / RAM.


Concordo con Mierdin e consiglio anche MTR per l'esecuzione continua di un traceroute in questo tipo di situazione. Link Wikipedia: en.m.wikipedia.org/wiki/MTR_(software)
Brett Lykins

@Mierdin - Grazie per il tuo feedback, quindi non esiste un fattore L3 qui, traceroute mostra una risposta inizialmente elevata di circa 500 ms, quindi 260 ms, quindi 76 ms in arrivo sul dispositivo - questi sono per ogni tentativo sullo stesso hop singolo, non per più luppolo. Vedi il mio commento a MikePennington per le informazioni relative alla CPU.
AL

3

se questo è solo basato sulla LAN, ci sono alcune cose che puoi fare per iniziare a provare e scoprire cosa sta causando questo:

  • Mostra comando cronologia processo cpu : se l'utilizzo della CPU è molto elevato, devi vedere quale processo sta causando questo e forse colpire Google con il processo offensivo.

  • mostra comando di debug : una causa comune che ho riscontrato è che le persone lasciano i comandi di debug in esecuzione sullo switch. Un favorito comune era l'account IP lasciato su dispositivi che erano già troppo utilizzati. Usa "undebug all" per eliminare i debug.

  • Dagli un riavvio : probabilmente non durante il giorno, ma usa il comando "ricarica in" per cronometrare di notte o durante il fine settimana. Saresti sorpreso di quanti problemi può risolvere un riavvio rapido.

  • porte trunk chiuse - Se si tratta di uno switch L3, un altro problema comune che ho visto è troppo traffico che utilizza questo dispositivo per il routing tra VLAN. Se possibile, chiudere temporaneamente alcune delle porte del trunk per vedere se ciò riduce la latenza.

È bene essere consapevoli del fatto che i ping hanno una bassa priorità, per quanto riguarda la latenza e anche quando vengono elaborati dalla CPU. Potrebbe anche essere una buona idea controllare due volte le tue impostazioni QoS e assicurarti che non ci siano errori sciocchi che lo causano, per quanto sia improbabile.


Ottimo riscontro, avevo già verificato il debug dello show e al momento non è possibile riavviare.
AL

2

Uso i cactus per monitorare la larghezza di banda e openNMS per monitorare la latenza. Se si stanno monitorando tutti i dispositivi collegati a questo switch, è possibile che venga visualizzato un corollario tra l'utilizzo e la latenza. (So ​​che hai detto che non è un problema di larghezza di banda, ma non lo hai mai fatto ora) Ho visto gli switch di fascia bassa abbassarsi durante un uso intenso, che causa molta latenza. Avete dei dispositivi "stupidi" che alimentano questo interruttore che potrebbero essere la fonte dell'abbassamento anche se questo interruttore non sta passando molto traffico. Inoltre con i cactus potresti essere in grado di eseguire il polling dell'utilizzo della CPU e potresti vedere un picco al momento della latenza.

Come accennato in precedenza, MTR o Neotrace sono utili anche per tenere d'occhio la situazione e potresti vedere dove inizia la latenza, che potrebbe non essere questo interruttore stesso.


0

Se ciò non accade sulla LAN, è possibile limitare il throghtput "wan port", questo forzerà un TDM migliore. Prova qualcosa intorno all'80% della tua produttività massima e vedi se aiuta. Potrebbe essere necessario tweek a seconda della quantità di terminali.


Come capisco, OP ha chiaramente affermato nella nota che questo non è legato al carico.
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.