`qsub` lascia“ NotQueued ”in“ lavori bloccati ”


1

Sto lavorando su un cluster remoto ( westgrid> bugaboo ) su cui invio i processi tramite un .pbsfile. Il mio .pbssembra così

#!/bin/bash
#PBS -l procs=1
#PBS -l walltime=100:00:00
#PBS -N SimulationName
#PBS -m ea
#PBS -M myname@gmail.com
#PBS -l pmem=3000mb
#PBS -t 1-100

echo "Starting run at: `date`"

R --vanilla --args ${PBS_ARRAYID} < /Path/To/code.R

echo "Job finished with exit code $? at: `date`"

, dove PBS_ARRAYIDassumerà i valori da 1 a 100 per ciascun lavoro specifico. /Path/To/code.Rè un wrapper R per alcuni file binari scritti in C. Quando invio il lavoro

$ qsub mypbs.pbs

tutto sembra funzionare bene. Le simulazioni funzionano come previsto e ho ottenuto gli output. Il problema è che a un certo punto, mentre le simulazioni sono in esecuzione, vedo spesso lavori strani nei "lavori bloccati".

$ showq -u myName

active jobs------------------------
JOBID              USERNAME      STATE PROCS   REMAINING            STARTTIME


0 active jobs            0 of 4516 processors in use by local jobs (0.00%)
                        428 of 436 nodes active      (98.17%)

eligible jobs----------------------
JOBID              USERNAME      STATE PROCS     WCLIMIT            QUEUETIME


0 eligible jobs   

blocked jobs-----------------------
JOBID              USERNAME      STATE PROCS     WCLIMIT            QUEUETIME

30004048[]          matthey  NotQueued     1  2:02:00:00  Wed Mar 23 12:56:27
30156104[]          matthey  NotQueued     1  2:02:00:00  Mon Mar 28 01:14:16

2 blocked jobs   

Total jobs:  2

L'ID lavoro è in effetti lo stesso di quelli che vengono eseguiti (o eseguiti prima) ma questi due lavori bloccati non hanno alcuna PBS_ARRAYIDparentesi tra parentesi quadre. Questi lavori rimangono lì a lungo e non posso eliminarli

$ qdel 30004048[]

qdel: nonexistent job id: 30004048[]

Inoltre, non posso inviare alcun nuovo lavoro (che è il problema principale) quando ricevo il messaggio

$ qsub mypbs.pbs

qsub: submit error (Maximum number of jobs already in queue MSG=Job 30893576.b0 violates the global server limit of 500 jobs queued per user)

anche se NON viola questo limite del server. Alla fine questi lavori "NotQueued" finiscono per scomparire ma solo dopo un tempo relativamente lungo.

Questo problema mi è successo diverse volte in passato e tra tutti gli utenti di questo cluster, mi sembra di essere l'unico a riscontrare questo problema. Quando si contatta l'assistenza, di solito finiscono per eliminare in qualche modo i due lavori, ma finora non ho ricevuto alcuna soluzione a lungo termine a questo problema.

  • Hai idea di cosa stia succedendo?
  • Posso cancellare questi due strani lavori?
  • Come posso evitare che queste cose accadano di nuovo?

Risposte:


0

"Questi lavori rimangono lì per molto tempo" immagino / spero che dopo due anni siano stati finalizzati. Comunque, mi sono imbattuto nella stessa domanda ("Posso eliminare questi (...) strani lavori [array]") e l'uso delle virgolette (della macchina da scrivere) (singole o doppie) ha risolto il problema:

qdel "job_identifier[]"

per eliminare l'intero array. Inoltre puoi specificare uno specifico $PBS_ARRAYID(o un intervallo) con l' -topzione


Puoi fornire qualche altro contesto alla tua risposta?
petersv,

Spiacenti, non capisco davvero la tua richiesta. Quindi ho cercato di rispondere alla seconda domanda: "Posso cancellare questi due strani lavori". E la risposta è sì nel modo seguente. Oppure sei confuso dalla seguente osservazione sull'opzione intervallo?
Daniel,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.