Perché il mio sistema si blocca quando eseguo ps, w e possibilmente altri comandi?


10

Non so perché, ma non riesco a eseguire i comandi pso wsulla mia macchina Ubuntu 10.04LTS. Ho fatto una traccia per entrambi, ed entrambi si sono fermati durante la lettura di parte dello stesso file.

Ecco il risultato della corsaps

Ed ecco il risultato perw

Il file si è fermato anche durante la lettura ... stessa? http://pastebin.com/9qRB5eHh

Che cosa sta succedendo?

Risposte:


9

L'ho accaduto una volta quando un server NFS è andato in crash.

Il fatto che sia bloccato cercando di leggere informazioni su pid 17398 e che pid 17398 sia nello stato D(attesa del disco), suggerisce che potrebbe essere la causa anche per te.

read(6, "Name:\tconvert\nState:\tD (disk sle"..., 1023) = 664
open("/proc/17398/cmdline", O_RDONLY)   = 6

Se si dispone di montaggi NFS, penso che l'opzione migliore sia provare a ripristinare il server NFS.

Altrimenti, umount -f <mount>potrebbe aiutare.


Immagino che il riavvio dovrebbe riparare questo, ma non voglio farlo, dal momento che voglio essere sicuro di quale sia la causa: P

Cosa mountdice? Nota che c'è una possibilità che potrebbe bloccarsi (non credo che dovrebbe, ma non sono sicuro al 100%).
Mikel,

3

sospiro la gestione delle domande chiuse è piuttosto scadente, questa sarà la terza volta che provo a digitare questo, quindi per favore perdona la terseness.

Innanzitutto, utilizzare i intrmontaggi NFS. I hardmontaggi NFS predefiniti si bloccano per sempre. softNFS monta l'errore dopo un timeout (che potrebbe essere stupido per errori temporanei). intrConsente di decidere di interrompere un'operazione NFS bloccata. Giusto.

In secondo luogo, per risolvere questo stupido problema, ho già usato uno stupido trucco , probabilmente funziona ancora. Portare un alias interfaccia locon l'indirizzo IP del server NFS ( Edit : ifconfig eth0:0 <ipaddress>). Crea un /etc/exportsfile che contiene una linea per esportare il filesystem a cui sei bloccato ( modifica : esporta un filesystem con lo stesso nome del filesystem 'hung'; dovrai creare lo stesso percorso di quello che hai montato) . Avvia il tuo server NFS sul tuo computer locale e, si spera, il tuo programma bloccato può sbagliare con "file non trovato" o "directory non trovata" o qualcosa del genere, permettendoti di andare avanti con il tuo lavoro senza riavviare.

Non dimenticare di spegnere nuovamente il server NFS e rimuovere l'alias dell'interfaccia al termine.


Uso i montaggi NFS intr ... dove hai visto il contrario?
user69239,

Riguardo al "secondo paragrafo" non lo capisco molto bene ... scusa! :(
user69239,

@ user69239 non hai fornito alcun dettaglio, quindi ho pensato che stavi usando il hardtipo di montaggio predefinito . :)
sarnold,

@ user69239, ho leggermente ampliato il paragrafo con il trucco sciocco - spero sia più facile da capire ora. :)
sarnold,

2

Non sono sicuro del motivo per cui l'attenzione su NFS? Il richiedente sta eseguendo NFS? Non ho visto nulla al riguardo.

Comunque, questo è un problema molto strano dal suo / proc. Prova le seguenti cose per darti maggiori informazioni sul problema:

  • Andare in / proc e trovare altre directory pid e provare a leggere i file cmdline da tali directory.
  • Prova a leggere anche / proc / pid / stat, se non funziona, direi che il tuo sistema ha problemi con il kernel.
  • Sei in grado di eseguire netstat -n? Questo legge da diverse parti di / proc, quindi potrebbe funzionare e indicherebbe meno problemi con l'interfaccia proc.
  • Prova a rimontare / proc con mount -o remount / proc anche se non ho idea di cosa farebbe in questa situazione.

Vorrei solo suggerire il riavvio. Se non riesci a leggere cose da proc, non sono sicuro di cosa troverai attraverso altri metodi. Se succede di nuovo, allora inizia a preoccuparti.


Sì, sono con NFS ... il problema è copiare un file tramite un sistema di fusibili s3
user69239,

fuse e nfs sono cose diverse. Penso che tu debba fornire tutti i dettagli che puoi. Hai fornito molto con una serie, ma sapere di più sulla tua configurazione e su come tutto è iniziato è un primo passo necessario.
deltaray,

Il problema è apparso eseguendo un massiccio comando "cp" dal mio host (una piccola istanza di Amazon) a un S3, collegato con s3f3 1.40 con solo l'opzione allow_other. Ubuntu è una normale installazione di base 10.10 con l'aggiornamento tipico. Nient'altro. Davvero: P
user69239,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.