La mia porta dello switch Cisco è difettosa?


9

Ho inseguito un problema di perdita di pacchetti e stabilità della rete per una manciata di utenti finali su una rete interna negli ultimi giorni ... Questi problemi sono emersi la scorsa settimana, tuttavia la posizione è stata colpita da un fulmine sei settimane fa.

Stavo vedendo una perdita di pacchetti del 5-10% tra uno stack di quattro Cisco 2960 e diversi PC e telefoni sull'altro lato di una corsa di 77 metri. I PC sono stati eseguiti in linea con i telefoni tramite un collegamento trunked ( pastebin di configurazione dello switchport ). Abbiamo riscontrato chiamate interrotte e interruzioni nelle applicazioni client-server e connettività di Microsoft Exchange.

Ho provato le solite procedure di risoluzione dei problemi in remoto, facendo in modo che un tecnico locale esegua le seguenti operazioni durante le interruzioni dell'attività dell'utente e della produzione:

  • cambiare i cavi tra la presa a muro e il dispositivo.
  • cambiare i cavi patch tra il pannello patch e le porte degli switch.
  • provare diverse porte dello switch nello stack 2960.
  • cambiare i dispositivi degli utenti finali con apparecchiature note (nuovi telefoni, diversi PC).
  • cancellare i contatori dell'interfaccia della porta dello switch e monitorare attentamente gli errori di incremento. ( Uscita Pastebin dish int )
  • Annoiato sui registri dei dispositivi e sui grafici RRD di Observium . Nessun problema di collegamento su / giù dal lato interruttore.
  • cambiare le prese multiple sul lato dell'utente finale.
  • il cavo di prova passa da Cisco 2960 utilizzando test cable-diagnostics tdr int Gi4/0/9(pulito) *
  • il cavo di prova funziona con un tester per cavi Tripp-Lite. (pulito)
  • eseguire la diagnostica sui membri dello stack switch. (pulito)

Alla fine, sono state necessarie tre modifiche alle porte dello switch per trovare una soluzione stabile. L'unica conclusione logica è che alcune porte dello switch Cisco 2960 sono difettose o traballanti ... Non sono morte, ma non hanno un comportamento coerente. Non sono abituato a vedere le singole porte morire in questo modo.

Cos'altro posso testare o verificare per determinare se questi dispositivi sono difettosi?

Qual è l'approccio delle migliori pratiche per verificarlo?

È comune che i singoli porti abbiano problemi, piuttosto che un banco contiguo di porti?


A proposito, show cable-diagnostics tdr int Gi4/0/14è molto bello ...

Interface Speed Local pair Pair length        Remote pair Pair status
--------- ----- ---------- ------------------ ----------- --------------------
Gi4/0/14  1000M Pair A     79   +/- 0  meters Pair B      Normal              
                Pair B     75   +/- 0  meters Pair A      Normal              
                Pair C     77   +/- 0  meters Pair D      Normal              
                Pair D     79   +/- 0  meters Pair C      Normal              

Potresti aggiungere "show interface gi4 / 0/9" ... anche il tuo output tdr proviene da gi4 / 0/14 ... quante porte hanno il problema?
Mike Pennington,

@MikePennington 4 interfacce su 48 mostravano problemi. I contatori sono stati cancellati. Ma l'unico contatore che stava aumentando era:Total output drops: 1461
ewwhite

1461 cadute da un totale di quanti pacchetti di output? Tutte e quattro le porte problematiche mostrano cadute in uscita?
Mike Pennington,

@MikePennington Output pastebin dell'interfaccia per due delle porte problematiche.
ewwhite,

1
Non è una risposta tecnica ma .. hai un contratto TAC attivo? Se sì, coinvolgilo: P
ItsGC

Risposte:


7

Mentre le banche dei porti condividono spesso un ASIC, ognuna deve avere il proprio PHY separato. Se il PHY è stato danneggiato, potrebbe avere un problema mentre i suoi vicini no.

Detto questo, le cadute di output sono uno strano sintomo di un problema fisico - non impossibile, ma non tipico. Nonostante i collegamenti half duplex, i drop di output hanno generalmente più a che fare con l'esaurimento del buffer che con i problemi fisici.

Puoi ottenere maggiori informazioni impostando un'acquisizione di pacchetti sull'altro lato del filo. Ci si aspetterebbe che si verifichi un PHY negativo con un certo numero di errori di livello fisico (CRC errato, runt / gigante, ecc.) Su uno o entrambi i lati del collegamento.

Tutto sommato sembra che tu abbia eliminato abbastanza da poter superare i rendimenti decrescenti. Consiglierei un RMA se hai un contratto.


Dal momento che ciò accade su più porte su più (2) switch, ma solo per un piccolo sottoinsieme di utenti, è questo un caso in cui dovrei sostituire tutti e quattro gli switch? Ho appena avuto difficoltà a fare pressioni per la sostituzione senza conoscere il problema principale, poiché la sostituzione richiederà notevoli tempi di inattività, riattivazione, ecc.
ewwhite,

Il lampo è un animale molto strano e il suo danno può manifestarsi molto più tardi e in modi imprevedibili. I tempi di inattività fanno schifo, ovviamente, ma potrebbero essere leggermente migliorati inserendo l'interruttore di sostituzione, spostando le patch e quindi estraendo quelle vecchie. Vorrei che ci fosse una risposta più semplice, ma se hai isolato il problema su alcune porte, non c'è molto altro da fare.
rnxrx,

Oggi il PHY è quasi sempre integrato nell'ASIC. È semplicemente più economico. I magnetici riguardano l'unica parte che non possono davvero integrarsi nell'ASIC, che potrebbe essere danneggiato, ma non è il PHY. Inoltre, è abbastanza comune usare i magneti Quad set, quindi se il problema è su 4 porte, si presta a questa teoria.
Chris S,

Non proprio - se si passa attraverso l'architettura della maggior parte degli switch Cisco (incluso quello in questione), gli stessi ASIC vengono spesso utilizzati per uno o due GE in fibra o rame o per un gruppo di 100TX. Molte più funzionalità vengono spostate sull'ASIC nelle architetture switch-on-chip, ma in quei casi c'è ancora uno strato fisico gestito da un'ottica innestabile o una sorta di supporto in rame. Dato che lo stesso complesso ASIC può spesso gestire una serie di requisiti di velocità e potenza diversi, non ha molto senso integrare questa funzione nello stesso giro?
rnxrx,

Alla fine hanno sostituito tutti gli switch dopo che troppe porte sono state degradate al punto da diventare inutilizzabili. Finalmente un buon uso per SmartNet!
ewwhite,

2

Sì, una singola porta può essere dannosa, ma come ricordo, è necessario sostituire l'intero modulo. (Avvertenza: è passato molto tempo da quando ho svolto un importante lavoro Cisco ...)

Non sono sicuro che possa aiutare, ma dai un'occhiata a FITB , di Laurie Denness, uno degli ingegneri di Ops di Etsy.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.