Ho 1 lavoro in sospeso incompiuto su 5 che è stato in esecuzione per 19 ore e sono preoccupato che colpirà il walltime prima che finisca. Non sono l'amministratore ed è il fine settimana, quindi vorrei provare a utilizzare questa funzione che ho scoperto di recente mostrato in questo esempio:
$ salloc -N4 -C knl,snc4,flat --dependency=expand:$SLURM_JOB_ID bash
salloc: Granted job allocation 65543
Tuttavia, quando provo questo, ottengo un errore:
$ salloc --qos=1wk --dependency=expand:14602965
salloc: error: Job submit/allocate failed: Job dependency problem
Che cosa sto facendo di sbagliato?
AGGIORNARE:
Sono stato in grado di ottenere il comando per eseguire correttamente quando ho appena provato a modificare il walltime:
$ salloc --job-name freebayes.commands3-extend -t 7-00:00:00 --mem 387000 --dependency=expand:14602965
salloc: Granted job allocation 14604022
Una cosa che ho notato tuttavia è che salloc è un processo in esecuzione nella mia shell corrente:
$ ps
PID TTY TIME CMD
43140 pts/1 00:00:00 tcsh
43284 pts/1 00:00:00 salloc
43286 pts/1 00:00:00 tcsh
43321 pts/1 00:00:00 ps
Quindi ho pensato che dovevo eseguirlo con nohup (o all'interno di screen / tmux) in modo da poter uscire. Ho scancato e ucciso il processo e l'ho rifatto senza nohup. Tuttavia, senza la possibilità di modificare il QOS, prevedo che il mio lavoro verrà ucciso. Avevo provato con -t e --qos, ma ho avuto lo stesso errore. Il mio sospetto è che dal momento che non ho fornito esplicitamente --qos, non posso usare --dependency = espandi per modificare il lavoro. Ho usato il qos predefinito ("1 giorno").
La mia domanda supplementare è: devo usare screen / tmux / nohup quando provo a modificare il lavoro?
Inoltre, ci sono informazioni in questo output di squeue che mi dicono se riuscirà o meno ad estendere il lavoro ?:
JOBID PARTITION MIN_MEMOR TIME CPUS PRIORITY START_TIME QOS TIME_LIMIT NAME
14602965 main 387000 20:05:37 3 0.0000038153 2018-11-02T13:36:30 1day 1-00:00:00 freebayes.commands3
14604022 main 387000 2:53 3 0.0000018135 2018-11-03T09:39:14 1day 3:57:00 freebayes.commands3-extend