LInux: Come posso diagnosticare / isolare ciò che sta causando blocchi “casuali” e riavvii spontanei?


20

(originariamente pubblicato su serverfault )

Quindi, piuttosto che indovinare quale sia la causa (anche se i miei soldi sono sui driver nvidia), dove comincio a cercare di individuare alcuni fatti?

Ho esaminato / var / log in diverse occasioni, ma ci sono MOLTE cose dentro e non riesco (ancora) a individuare i bit importanti.


Sfondo: la versione breve

Sono passato da WinXP a Ubuntu Karmic subito dopo che è diventato disponibile.

Da allora ho avuto una serie di crash apparentemente casuali che si manifestano come:

  • un riavvio spontaneo
  • un blocco completo con la tastiera e il mouse USB che non rispondono (fino allo spegnimento completo dei LED). Inoltre, in genere, non sarò in grado di accedere alla casella quando ciò accade.

Ho fatto molte ricerche e Nvidia sembra essere il principale sospettato, ma non ho idea di dove iniziare a cercare di capire quale sia la vera causa.

Un utente serverfault ha suggerito di controllare la RAM con MemtextX86 +. Nessun errore trovato. È stato anche suggerito il monitoraggio della temperatura della scheda video, che sto esaminando ora.

A parte questo, suggerimenti a chiunque?



Sfondo: la versione lunga

A volte, posso passare un'intera settimana senza un incidente, quindi averne 5 in 2 giorni.

Motivato dal desiderio di eliminare possibili sospetti, ho apportato alcune modifiche nel tempo senza risultati:

  • Inizialmente ho usato KVM per la virtualizzazione, ora uso VirtualBox OSE
  • Avevo NFS in esecuzione nel kernel ma ora uso Samba
  • Stavo usando Compiz ma da allora l'ho spento
  • Sono passato da Karmic a 64 bit a 32 bit (anche per altri motivi)
  • Ho provato Ubuntu, Kubuntu e Xubuntu. Lo stesso problema ogni volta (anche se in ritardo sembra essere più frequente in Gnome che in XFCE).
  • Ho aggiornato il driver Nvidia dalla versione 185 alla versione 96 (Modulo kernel NVIDIA Linux x86 96.43.13 Gio 25 Giu 18:42:21 PDT 2009). Questo sembra aver ridotto la frequenza di errore.


In termini di ciò che è in esecuzione al momento, questo può variare. Di seguito sono comuni ma non erano necessariamente in esecuzione per ogni arresto anomalo:

  • Firefox 3.5
  • VirtualBox OSE con 1 o 2 VM Windows XP
  • Skype
  • Rhythmbox o Exaile


Il mio hardware ha 2 - 3 anni:

  • Core 2 Duo 6300
  • 4 GB di RAM
  • qualche razza di scheda madre Intel di quell'annata
  • una scheda video a doppia testa Asus con chipset Nvdia GeForce 7300 GS
  • 2 x HDD SATA
  • doppi monitor (quindi mi affido ai driver nvidia proprietari)


Mi sono tenuto aggiornato con gli aggiornamenti del mio sistema.

Si spera che i dati di cui sopra possano indurre qualcuno a suggerire un tipo specifico di registro o configurazione che valga la pena indagare.


Aggiornamento 1

ho appena avuto un incidente in cui gli altoparlanti sono impazziti. Ho cercato su Google e sembra che PulseAudio abbia avuto qualche problema in passato. Non sono ancora sicuro se questo è rilevante, ma PulseAudio sarà in esecuzione ogni volta che ho avuto un incidente.


Aggiornamento 2

Seguire il link di @ CarlF alla Guida Debian Sysadmin mi ha portato alla chiave sysrq magica che proverò al prossimo incidente. Non che questo mi darà molti indizi sulla causa, ma almeno spero di riuscire a chiudere con grazia.


Aggiornamento 3

lm-sensor segnala che la mia GPU funziona a quasi 70 ° C / 158 ° F - interessante. Se dovessi indovinare direi che questo è un indizio importante.


Aggiornamento 4

Colpisci l'interno del sistema con un airduster poco dopo il mio ultimo aggiornamento - risultato netto: da allora solo un incidente. Lo chiamerò un problema termico.


3
Eccellente formattazione e informazioni di base, vorrei che tutte le domande fossero così. +1.
John T

Risposte:


8

Ci sono buoni consigli dalla Guida dell'amministratore di Debian qui: http://www.debian-administration.org/articles/492


Interessante vedere cosa hanno da dire sui registri non informativi come segno di un vero problema hardware. Ho un intervallo di sei ore tra l'ultimo / var / log / messaggio e il riavvio. Hmmmm.
LRE

accettato sulla base del fatto che il link ha chiarito che nulla nei registri equivale a un problema hardware - portami nella giusta direzione.
LRE

4

La prima cosa che potresti voler verificare se ci sono problemi hardware durante l'avvio. Il processo di avvio registra i dati dal buffer dell'anello del kernel in /var/log/boot.log. Dopo l'avvio del sistema, i nuovi messaggi vengono scaricati in questo buffer ed è possibile visualizzare lo stato corrente con il dmesgcomando. Un registro importante che vorrai anche indagare è /var/log/messages. Ciò conterrà i timestamp, le strutture e le priorità degli errori e l'applicazione che li ha generati. Avere un timestamp disponibile è una risorsa inestimabile quando si eseguono errori di debug.

I blocchi casuali sembrano sicuramente legati all'hardware. Prova a riposizionare tutto l'hardware sulla scheda madre e esegui memtest86 + run.


Vedo una riga in / var / log / messages che dice "imklog 4.2.0, log source = / var / run / rsyslog / kmsg avviato". È un buon indicatore dell'avvio del sistema? In tal caso, posso utilizzarlo per individuare un'area del registro da cui riesco a eseguire la scansione.
LRE,

Sì, credo sia una delle prime, se non la prima riga dopo l'avvio. È il modulo di input del log del kernel.
John T

2

Hai provato a reinserire la memoria, il processore e altri chip? Inoltre, potresti voler provare a eseguire un altro sistema operativo (FreeDOS) per eliminare alcune possibilità.

Come suggerimento, dovresti anche essere in grado di usare due monitor abbastanza bene attraverso Gnome senza usare i driver nvidia.


meglio sono stato in grado di dire che ho sicuramente bisogno dei driver propietary nvidia per usare due monitor. Sei in grado di indicarmi la giusta direzione per non averne bisogno?
LRE

Potrei non essere corretto. Ho cercato un po 'in giro, e vedo i riferimenti a xinerama (per cui penso che il driver abbia delle estensioni) ma nulla di relativo ai driverw non proprietari. Sfortunatamente, non ho una macchina con una scheda nVidia con cui giocare.
Nerdfest,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.