Il piccolo college in cui lavoro ha problemi di rete molto strani. Sto cercando consigli o idee qui. Siamo stati bene durante l'estate, ma il problema è iniziato pochi giorni dopo che gli studenti sono tornati al campus in vigore per l'autunno.
Sintomi
Il sintomo principale è che l'accesso a Internet funzionerà, ma è molto lento ... spesso al punto di timeout. Ad esempio, un risultato tipico di Speedtest.net restituirà il download di 4 Mbps, ma consentirà una velocità di upload da 3 a 8 Mbps. Sintomi minori possono includere prestazioni notevolmente limitate nel trasferimento dei dati da e verso il nostro file server, o anche in alcuni casi l'impossibilità di accedere al computer (impossibile raggiungere il controller di dominio). Il problema attraversa più vlan e ha interessato i dispositivi su quasi tutti i vlan in cui operiamo.
Il problema non ha alcun impatto su tutte le macchine della rete. Una macchina non interessata in genere vedrà download di almeno 11 Mbps da speedtest.net, e forse molto di più a seconda dei modelli di traffico del campus più grandi in quel momento.
C'è una variazione sul problema più grande. Abbiamo un vlan in cui gli utenti non sono stati in grado di accedere a quasi tutte le macchine. Il personale IT accedeva utilizzando un account amministratore locale (o in alcuni casi credenziali memorizzate nella cache) e da lì un rilascio / rinnovo o il ping del gateway avrebbe permesso alla macchina di funzionare ... per un po '. A complicare questo problema è che questo vlan copre i nostri laboratori informatici, che utilizzano un software chiamato Deep Freeze per ripristinare completamente i dischi rigidi dopo un riavvio. Potrebbe essere lo stesso problema che si manifesta in modo diverso a causa di dati obsoleti su macchine che non hanno modificato in modo permanente informazioni di basso livello per settimane. Siamo stati in grado di risolverlo, tuttavia, creando un nuovo vlan e spostando i laboratori nel nuovo vlan wholesale.
istigazioni
Alla fine abbiamo notato che le macchine interessate avevano tutte recenti contratti di locazione di dhcp. Siamo in grado di prevedere quando una macchina diventerà "lenta" osservando quando un contratto di locazione dhcp arriva per il rinnovo. Abbiamo giocato con tempi di leasing molto brevi per un test vlan, ma tutto ciò che è stato rimosso è stata la nostra capacità di prevedere quando la macchina sarebbe diventata lenta. Le macchine con IP statici hanno praticamente sempre funzionato normalmente. Rilasciare / rinnovare manualmente un indirizzo non farà mai rallentare una macchina. In effetti, in alcuni casi questo processo è stato risoltouna macchina in quello stato. Il più delle volte, però, non aiuta. Abbiamo anche notato che le macchine mobili come i laptop rischiano di rallentare quando attraversano nuovi vlan. Il wireless nel campus è suddiviso in "zone", dove ogni zona è mappata a un piccolo insieme di edifici. Trasferirsi in un nuovo edificio può metterti in una zona, facendoti così ottenere un nuovo indirizzo. Anche una macchina che riprende dalla modalità di sospensione è molto lenta.
Fattori attenuanti
A volte, ma non sempre, svuotare la cache arp su una macchina interessata consentirà che funzioni di nuovo normalmente. Come già accennato, il rilascio / il rinnovo dell'indirizzo IP di una macchina locale può risolvere tale macchina, ma non è garantito. Il ping del gateway predefinito a volte può anche aiutare con una macchina lenta.
Ciò che sembra aiutare di più a mitigare il problema è svuotare la cache arp sul nostro switch core di livello 3. Questo switch viene utilizzato per il nostro sistema dhcp come gateway predefinito su tutti i vlan e gestisce il routing inter-vlan. Il modello è un 3Com 4900SX. Per tentare di mitigare il problema, abbiamo impostato il timeout della cache sull'interruttore fino al minor tempo possibile, ma non ha aiutato. Ho anche messo insieme uno script che viene eseguito ogni pochi minuti per connettersi automaticamente allo switch e ripristinare la cache. Sfortunatamente, questo non funziona sempre e può anche causare il rallentamento di alcune macchine in uno stato lento per un breve periodo (anche se questi sembrano correggersi dopo pochi minuti). Al momento abbiamo un lavoro pianificato che viene eseguito ogni 10 minuti per forzare il core switch a svuotare la cache ARP, ma questo è tutt'altro che perfetto o desiderabile.
Riproduzione
Ora abbiamo una macchina di prova che possiamo forzare allo stato lento a piacimento. È collegato a uno switch con porte configurate per ciascuno dei nostri vlan. Rallentiamo la macchina connettendoci a diversi Vlan e dopo una nuova connessione o due sarà lenta.
Vale anche la pena notare in questa sezione che ciò è accaduto prima all'inizio di termini precedenti, ma in passato il problema è scomparso da solo dopo alcuni giorni. Si è risolto da solo prima che avessimo la possibilità di fare molto lavoro diagnostico ... quindi perché gli abbiamo permesso di trascinare così a lungo il termine questa volta; l'aspettativa era che questa sarebbe stata una situazione di breve durata.
Altri fattori
Vale la pena ricordare che nell'ultimo anno abbiamo avuto circa una mezza dozzina di interruttori. Si tratta principalmente di 3Com dell'era 2003-2004 (per lo più 4200) che sono stati messi tutti nello stesso momento. Dovrebbero comunque essere coperti da garanzia, acquistare HP ha reso un po 'difficile ottenere assistenza. Principalmente negli alimentatori che hanno fallito, ma in un paio di casi abbiamo usato un alimentatore da un interruttore con una scheda madre guasta per riportare in vita un interruttore con un alimentatore guasto. Al momento disponiamo di dispositivi UPS su tutti tranne tre su quattro interruttori, ma non è stato così quando ho iniziato due anni e mezzo fa. Gravi vincoli di bilancio (un paio di anni fa eravamo nella lista delle istituzioni con problemi finanziari del Dipartimento di Ed) mi hanno costretto a cercare sostituti di Netgear e TrendNet per sostituzioni,
Vale anche la pena ricordare che il grande cambiamento sulla nostra rete questa estate stava migrando da un singolo SSID wireless tra campus e all'approccio suddiviso in zone menzionato in precedenza. Non penso che questa sia la fonte del problema, come ho detto: l'abbiamo già visto prima. Tuttavia, è possibile che ciò stia esacerbando il problema e potrebbe essere la ragione per cui è stato così difficile isolarlo.
Diagnosi
All'inizio ci è sembrato chiaro, data la tempistica e la natura persistente del problema, che la fonte del problema fosse una macchina studente infetta (o dannosa) che stava facendo avvelenare la cache ARP. Tuttavia, ripetuti tentativi di isolare la fonte non sono riusciti. Tali tentativi includono numerose tracce di pacchetti di wirehark e persino la messa in linea di interi edifici per brevi periodi. Non siamo stati nemmeno in grado di trovare una voce ARP male da arma da fumo. La mia ipotesi attuale è un interruttore principale sovraccarico o difettoso, ma non sono sicuro su come testare questo, e il costo per sostituirlo alla cieca è ripido.
Ancora una volta, tutte le idee sono state apprezzate.
Aggiornamento: l'
interruttore principale viene sostituito. Dopo 4 giorni, tutto procede bene ... ma aspetterò il segno di due settimane prima di chiamare il problema risolto.
mtr
può essere utile qui.