(originariamente pubblicato su serverfault )
Quindi, piuttosto che indovinare quale sia la causa (anche se i miei soldi sono sui driver nvidia), dove comincio a cercare di individuare alcuni fatti?
Ho esaminato / var / log in diverse occasioni, ma ci sono MOLTE cose dentro e non riesco (ancora) a individuare i bit importanti.
Sfondo: la versione breve
Sono passato da WinXP a Ubuntu Karmic subito dopo che è diventato disponibile.
Da allora ho avuto una serie di crash apparentemente casuali che si manifestano come:
- un riavvio spontaneo
- un blocco completo con la tastiera e il mouse USB che non rispondono (fino allo spegnimento completo dei LED). Inoltre, in genere, non sarò in grado di accedere alla casella quando ciò accade.
Ho fatto molte ricerche e Nvidia sembra essere il principale sospettato, ma non ho idea di dove iniziare a cercare di capire quale sia la vera causa.
Un utente serverfault ha suggerito di controllare la RAM con MemtextX86 +. Nessun errore trovato. È stato anche suggerito il monitoraggio della temperatura della scheda video, che sto esaminando ora.
A parte questo, suggerimenti a chiunque?
Sfondo: la versione lunga
A volte, posso passare un'intera settimana senza un incidente, quindi averne 5 in 2 giorni.
Motivato dal desiderio di eliminare possibili sospetti, ho apportato alcune modifiche nel tempo senza risultati:
- Inizialmente ho usato KVM per la virtualizzazione, ora uso VirtualBox OSE
- Avevo NFS in esecuzione nel kernel ma ora uso Samba
- Stavo usando Compiz ma da allora l'ho spento
- Sono passato da Karmic a 64 bit a 32 bit (anche per altri motivi)
- Ho provato Ubuntu, Kubuntu e Xubuntu. Lo stesso problema ogni volta (anche se in ritardo sembra essere più frequente in Gnome che in XFCE).
- Ho aggiornato il driver Nvidia dalla versione 185 alla versione 96 (Modulo kernel NVIDIA Linux x86 96.43.13 Gio 25 Giu 18:42:21 PDT 2009). Questo sembra aver ridotto la frequenza di errore.
In termini di ciò che è in esecuzione al momento, questo può variare. Di seguito sono comuni ma non erano necessariamente in esecuzione per ogni arresto anomalo:
- Firefox 3.5
- VirtualBox OSE con 1 o 2 VM Windows XP
- Skype
- Rhythmbox o Exaile
Il mio hardware ha 2 - 3 anni:
- Core 2 Duo 6300
- 4 GB di RAM
- qualche razza di scheda madre Intel di quell'annata
- una scheda video a doppia testa Asus con chipset Nvdia GeForce 7300 GS
- 2 x HDD SATA
- doppi monitor (quindi mi affido ai driver nvidia proprietari)
Mi sono tenuto aggiornato con gli aggiornamenti del mio sistema.
Si spera che i dati di cui sopra possano indurre qualcuno a suggerire un tipo specifico di registro o configurazione che valga la pena indagare.
Aggiornamento 1
ho appena avuto un incidente in cui gli altoparlanti sono impazziti. Ho cercato su Google e sembra che PulseAudio abbia avuto qualche problema in passato. Non sono ancora sicuro se questo è rilevante, ma PulseAudio sarà in esecuzione ogni volta che ho avuto un incidente.
Aggiornamento 2
Seguire il link di @ CarlF alla Guida Debian Sysadmin mi ha portato alla chiave sysrq magica che proverò al prossimo incidente. Non che questo mi darà molti indizi sulla causa, ma almeno spero di riuscire a chiudere con grazia.
Aggiornamento 3
lm-sensor segnala che la mia GPU funziona a quasi 70 ° C / 158 ° F - interessante. Se dovessi indovinare direi che questo è un indizio importante.
Aggiornamento 4
Colpisci l'interno del sistema con un airduster poco dopo il mio ultimo aggiornamento - risultato netto: da allora solo un incidente. Lo chiamerò un problema termico.