Sto lavorando su un cluster remoto ( westgrid> bugaboo ) su cui invio i processi tramite un .pbs
file. Il mio .pbs
sembra così
#!/bin/bash
#PBS -l procs=1
#PBS -l walltime=100:00:00
#PBS -N SimulationName
#PBS -m ea
#PBS -M myname@gmail.com
#PBS -l pmem=3000mb
#PBS -t 1-100
echo "Starting run at: `date`"
R --vanilla --args ${PBS_ARRAYID} < /Path/To/code.R
echo "Job finished with exit code $? at: `date`"
, dove PBS_ARRAYID
assumerà i valori da 1 a 100 per ciascun lavoro specifico. /Path/To/code.R
è un wrapper R per alcuni file binari scritti in C
. Quando invio il lavoro
$ qsub mypbs.pbs
tutto sembra funzionare bene. Le simulazioni funzionano come previsto e ho ottenuto gli output. Il problema è che a un certo punto, mentre le simulazioni sono in esecuzione, vedo spesso lavori strani nei "lavori bloccati".
$ showq -u myName
active jobs------------------------
JOBID USERNAME STATE PROCS REMAINING STARTTIME
0 active jobs 0 of 4516 processors in use by local jobs (0.00%)
428 of 436 nodes active (98.17%)
eligible jobs----------------------
JOBID USERNAME STATE PROCS WCLIMIT QUEUETIME
0 eligible jobs
blocked jobs-----------------------
JOBID USERNAME STATE PROCS WCLIMIT QUEUETIME
30004048[] matthey NotQueued 1 2:02:00:00 Wed Mar 23 12:56:27
30156104[] matthey NotQueued 1 2:02:00:00 Mon Mar 28 01:14:16
2 blocked jobs
Total jobs: 2
L'ID lavoro è in effetti lo stesso di quelli che vengono eseguiti (o eseguiti prima) ma questi due lavori bloccati non hanno alcuna PBS_ARRAYID
parentesi tra parentesi quadre. Questi lavori rimangono lì a lungo e non posso eliminarli
$ qdel 30004048[]
qdel: nonexistent job id: 30004048[]
Inoltre, non posso inviare alcun nuovo lavoro (che è il problema principale) quando ricevo il messaggio
$ qsub mypbs.pbs
qsub: submit error (Maximum number of jobs already in queue MSG=Job 30893576.b0 violates the global server limit of 500 jobs queued per user)
anche se NON viola questo limite del server. Alla fine questi lavori "NotQueued" finiscono per scomparire ma solo dopo un tempo relativamente lungo.
Questo problema mi è successo diverse volte in passato e tra tutti gli utenti di questo cluster, mi sembra di essere l'unico a riscontrare questo problema. Quando si contatta l'assistenza, di solito finiscono per eliminare in qualche modo i due lavori, ma finora non ho ricevuto alcuna soluzione a lungo termine a questo problema.
- Hai idea di cosa stia succedendo?
- Posso cancellare questi due strani lavori?
- Come posso evitare che queste cose accadano di nuovo?