Esecuzione dell'analisi della causa principale


9

Voglio saperne di più su come eseguire l'analisi della causa principale. Più volte, il nostro dipartimento dice all'utente di provare a riavviare (il loro sistema Windows XP), che in realtà "risolve" un buon numero di problemi. Quando ho fretta (e talvolta mi viene pagato ogni ora contribuisce a questo) potrei provare a trovare una soluzione alternativa per risolvere rapidamente il problema invece di eseguire effettivamente l'analisi della causa principale.

Il più delle volte cerco queste informazioni nei file di registro o nel visualizzatore eventi. A volte userò gli strumenti Sysinternals o occasionalmente eseguirò uno sniffer di pacchetti. Probabilmente non uso i programmi Sysinternals quanto dovrei. Alcune informazioni specifiche su come utilizzare quali strumenti, quando e perché sarebbero utili.

So che questa è una domanda molto aperta, ma potresti per favore spiegare brevemente la tua metodologia, strumenti, ecc. Che usi? Sembra che molti amministratori di SF utilizzino un processo più approfondito di cui vorrei saperne di più. Se questo aiuta a restringere la domanda, sarei più interessato a strumenti, suggerimenti, trucchi, ecc. Pertinenti ai server e ai client Windows in un ambiente AD.

Risposte:


5

Capire la causa principale di un problema dipende dal problema. Il tuo istinto iniziale di esaminare i file di registro / strumenti di sistema / sniffer di pacchetti è generalmente corretto.
Aggiungerei l'esecuzione di MS Malicious Software Removal Tool e un buon programma AV su sistemi Windows (e assicurandomi che non abbiano qualcosa come CyberDefender o altri malware AV-trojan.

Le persone di Stack Exchange sono sostenitori del metodo "5 Whys" ( http://en.wikipedia.org/wiki/5_Whys , anche questo simpatico breve PDF che lo mostra in azione ). È uno strumento piuttosto prezioso per l'analisi delle cause alla radice.


Oltre a ciò dipingerò due grandi categorie e alcune delle domande che di solito faccio / cose che controllo:

Comportamento misterioso non correlato alla rete,
ad esempio "Word continua a bloccarsi su di me"

Domande di base da porre:

  1. Cosa è cambiato?
    (Non dare "niente" per una risposta: è la prima bugia. Nuovo software, patch, ecc. Contano tutti.)
  2. Cosa stavi facendo quando hai avuto il problema?
    (Cerca di estrarre più dettagli possibili qui - nel mio esempio sopra "Ho premuto il tasto di scelta rapida per inserire le iniziali e il programma si è bloccato")
  3. Ha mai funzionato prima?
    (In tal caso, inizia a guardare le cose da (1) sopra)
  4. Riesci a riprodurre il problema sul tuo sistema?
    (In tal caso, questo è un buon segno: una chiamata di supporto tecnico al venditore può aiutare. In caso contrario, dovrai guardare il sistema dell'utente per il resto di queste domande.)
  5. Cosa c'è di diverso nell'ambiente dell'utente rispetto al tuo ambiente?
  6. L'hardware dell'utente è sospetto (eseguire un test di memoria, cercare errori SMART dal disco rigido, ecc.)
  7. Se sei arrivato così lontano (check out hardware, check out software, nessun virus, nessun malware) vai a visitare l'utente per un giorno. Rispettare le loro abitudini di lavoro.
    Una volta la mia azienda aveva un misterioso blocco del sistema relativo al clic del mouse a una frequenza specifica (Non sappiamo ancora perché, ma dovevamo guardare un utente mentre lo faceva e fare pratica per un giorno per poter riprodurre in modo affidabile)

Problemi relativi alla rete

Molto di questo è simile, ma con alcune indicazioni più specifiche.

  1. Cosa è cambiato?
    (Sì, inizi sempre lì)
  2. Cosa è rotto?
    • Riesci a raggiungere le pagine Web? È solo uno che è giù? Se è così è giù per tutti o solo per te ?
    • Puoi fare ping su Internet per nome?
      Che ne dici di IP? Quanto arriva il traceroute?
  3. Quando è rotto?
    • Sempre alla stessa ora del giorno?
    • Per un breve periodo ogni N giorni?
    • Casualmente (è DAVVERO casuale? Traccialo su un calendario ...)
  4. C'è qualcosa di strano nel sito remoto?
    • Guarda DNS - Se è round robin potrebbe esserci una rottura sul lato remoto
    • Stiamo parlando dell'altra estremità di una VPN? Che succede con la VPN (registri!)?
  5. C'è qualcosa di strano nel sito locale?
    • Controlla il tuo firewall locale
    • Controlla qualsiasi "software di filtraggio"
  6. Verificare con il proprio ISP se ci sono problemi noti
  7. Controlla siti come http://www.internetpulse.net/ per problemi noti a livello di rete
  8. Controlla la macchina dell'utente
    (impostazioni TCP, ecc. - Di solito non è un problema, ma a volte.)

1

Oltre alle eccellenti risposte finora, aggiungerei:

  • Identificare la data / ora di inizio dell'emissione. Questo può sembrare ovvio, ma ho visto troppi problemi in cui questo non è stato documentato e in seguito sono state fatte ipotesi errate. Ciò si correla bene con il passaggio "cosa è cambiato".

  • Il problema è riproducibile o intermittente? Questo è fondamentale, poiché i sintomi riproducibili sono molto più facili e veloci da risolvere rispetto a quelli intermittenti. Se è riproducibile, assicurarsi che i passaggi siano documentati.

  • Identificare i sintomi. Si noti che si distingue tra "sintomo", che è una manifestazione della causa principale e il problema reale / causa principale.

    1. Ci sono altre attività che possono riprodurre il sintomo?
    2. Quali altri sintomi ci sono?
    3. Se il problema è intermittente, possiamo identificare un'attività che lo farà accadere?
    4. In quali circostanze possiamo evitare che si verifichi il sintomo? Il problema si verifica solo quando si accede utilizzando un account di rete, ma funziona bene se si accede localmente? Il problema si verifica quando si accede come un normale utente, ma funziona bene se si accede con privilegi elevati? Si verifica solo su un sistema, ma un altro sistema che dovrebbe essere simile non presenta il sintomo?
  • Localizza il problema in un componente funzionale probabilmente difettoso. Se si verifica un errore in un'applicazione Web, è nel codice dell'applicazione, nel server Web, nel sistema operativo che ospita il server Web, nella rete o nell'estremità remota? A questo punto è meglio supporre che le risorse siano focalizzate sulla causa probabile, quindi assicurarsi che gli altri sappiano che questa è teoria / congettura.

  • Metti in discussione le tue assunzioni e cerca di raccogliere dati empirici a supporto per supportare assunzioni e conclusioni. È una brutta sensazione dire a qualcuno che non c'è un problema con x, e in seguito si scopre che in realtà esiste. Di solito, quando esiste una soluzione errata, potrebbero esserci stati dati a supporto di una soluzione corretta.


Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.