È difficile dare risposte specifiche poiché il 90% di questo lavoro è un'esperienza che ti insegna dove cercare quale tipo di problema, e l'altro 90% sa dove cercare su Google per avere suggerimenti su dove iniziare.
Di solito provo le cose del sacco di carta come convincere il cliente a dimostrare il problema (principalmente per escludere problemi con le dita e qualsiasi problema che il cliente potrebbe avere descrivendo il suo problema), quindi provo a duplicare il problema su un altro computer. Farlo spesso ti dà un'idea di dove cercare.
Non dimenticare il problema correttivo di un riavvio, soprattutto per i sistemi Windows, anche oggi. In passato era così tanto che chiedevo alla gente "Hai riavviato? Beh, provaci e fammi sapere se il problema persiste" - questo ha risolto una percentuale molto grande dei problemi che mi venivano posti.
Spesso ci sono anche frutti a basso rischio nei problemi di risoluzione DNS e connettività di base (ACL su router, gap d'aria nella rete, ping / traceroutes / mtrs verso siti remoti, ecc.).
Per i servizi su cui hai il controllo diretto, l'esecuzione di nagios o qualcosa per garantire che il servizio sia effettivamente in esecuzione può spesso innescare la risoluzione di problemi prima che i clienti ne parlino. Probabilmente vuoi anche eseguire la raccolta delle statistiche, direttamente tramite Munin o qualcosa del genere, o tramite SNMP a qualcosa come Cactus.
Di solito cerco di far funzionare Cacti contro almeno tutti i miei core switch e firewall; dove possibile, corro cactus contro tutto ciò che posso. In questi casi di solito cerco cose come il numero di errori delle porte o il traffico eccessivo. I grafici del firewall di alcuni dispositivi possono mostrare l'utilizzo della CPU e sessioni simultanee; imparerai a quali soglie il tuo dispositivo firewall inizia ad avere problemi.
Il firewall potrebbe essere in grado di accedere a un dispositivo syslog; in tal caso, registra tutto ciò che puoi e cerca tra quelli per suggerimenti. Questo sarà più facile se esegui qualcosa come syslog-ng o rsyslog o splunk che ti consente di dividere i tuoi registri piuttosto che occuparti di un file monolitico.
Cerco anche di eseguire nfsen almeno all'interno del mio firewall e, laddove possibile, l'uplink al provider di servizi Internet. Questo ti consente di tornare indietro nel tempo per guardare le sessioni per vedere chi stava facendo cosa; questo a volte può catturare comportamenti interessanti.