La coppia funziona metà del tempo. Non riesce senza autorizzazione l'altra metà


1

Abbiamo aggiornato il nostro sistema operativo da Debian 5 a Debian 6 e di conseguenza abbiamo aggiornato Torque.

Ora qstat e qsub funzionano per circa 1 minuto e falliscono per un altro minuto.

Ho torque-2.5.5 (ma ho provato 2.4.8 e ha avuto gli stessi problemi).

Quando eseguiamo qstat per metà del tempo funziona e per metà del tempo otteniamo:

pbs_iff: cannot read reply from pbs_server
No Permission.
qstat: cannot connect to server torque-server (errno=15007) Unauthorized Request

Sul syslog della mamma:

pbs_mom: LOG_ERROR::Operation now in progress (115) in
TMomFinalizeChild, cannot open interactive qsub socket to host
girkelab-3.ucr.edu:51056 - 'cannot connect to port 777 in
client_to_svr - errno:115 Operation now in progress' - check routing
tables/multi-homed host issues

Sul server:

/opt/torque-2.5.5/bin/qmgr -c 'print server'
#
# Create queues and set their attributes.
#
#
# Create and define queue batch
#
create queue batch
set queue batch queue_type = Execution
set queue batch resources_default.nodes = 1
set queue batch enabled = True
set queue batch started = True
#
# Set server attributes.
#
set server scheduling = True
set server acl_hosts = torque-server
set server acl_hosts += torque-server+biocluster+parrot+owl
set server acl_hosts += owl-33+biocluster-33
set server acl_hosts += girkelab-3+girkelab-4
set server operators = root@torque-server
set server default_queue = batch
set server log_events = 511
set server mail_from = adm
set server query_other_jobs = True
set server scheduler_iteration = 600
set server node_check_rate = 150
set server tcp_timeout = 6
set server log_level = 0
set server submit_hosts = biocluster+parrot+owl
set server submit_hosts += girkelab-3+girkelab-4
set server submit_hosts += owl-33+biocluster-33
set server allow_node_submit = True
set server next_job_number = 206082

Perché dice errore di autorizzazione quando funziona metà del tempo?

Cosa posso fare per diagnosticare il problema?


Ho ricevuto alcuni commenti su questo modulo nella mailing list di Torque. In un certo senso, spiega perché "Errore di autorizzazione". (nota: pbs_iff è setuid root)
Aleksandr Levchuk

Risposte:


3

Conclusione: il server è stato bloccato a causa di un nodo morto.

Prima di capirlo, molte cose sono state provate:

  • Ho esaminato i singoli pacchetti tramite tcpdump.
  • Log server, client e mamme.
  • Ho testato il mio file system di rete se si stava bloccando.
  • Testato se il traffico UPD ha perso i pacchetti.

Niente, era sbagliato e non importava cosa provassi l'errore transitorio "Nessuna autorizzazione" non sarebbe scomparso.

Avevo un nodo morto la sera prima. Avevamo già avuto problemi prima che Torque si bloccasse invece di rilevare nodi morti. Quindi, ho rimosso i nodi da /var/spool/torque/server_priv/nodes(la posizione di configurazione Torque standard). Riavviata la coppia ma ciò non ha aiutato.

Verso la fine, con il mio capo, abbiamo trovato la soluzione. C'erano un sacco di vecchi file ("lavori in esecuzione") in /var/spool/torque/server_priv/jobs/cui appartenevano al nodo morto rimosso. Elimina. Ricomincia. Risolto.

"Nessun permesso"?!


2.5.5 è la coppia più recente e più grande oltre alla 3.0.0. Forse in 3.0.0 hanno risolto i numerosi problemi? Forse ora possono anche funzionare su TCP? Ne dubito.
Aleksandr Levchuk,

Passerò al dipartimento SLURM non appena ci sarà una possibilità.
Aleksandr Levchuk,

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.