Come usare SLURM --dependency = expand: <jobid> correttamente


2

Ho 1 lavoro in sospeso incompiuto su 5 che è stato in esecuzione per 19 ore e sono preoccupato che colpirà il walltime prima che finisca. Non sono l'amministratore ed è il fine settimana, quindi vorrei provare a utilizzare questa funzione che ho scoperto di recente mostrato in questo esempio:

$ salloc -N4 -C knl,snc4,flat --dependency=expand:$SLURM_JOB_ID bash
salloc: Granted job allocation 65543

Tuttavia, quando provo questo, ottengo un errore:

$ salloc --qos=1wk --dependency=expand:14602965
salloc: error: Job submit/allocate failed: Job dependency problem

Che cosa sto facendo di sbagliato?

AGGIORNARE:

Sono stato in grado di ottenere il comando per eseguire correttamente quando ho appena provato a modificare il walltime:

$ salloc --job-name freebayes.commands3-extend -t 7-00:00:00 --mem 387000 --dependency=expand:14602965
salloc: Granted job allocation 14604022

Una cosa che ho notato tuttavia è che salloc è un processo in esecuzione nella mia shell corrente:

$ ps
  PID TTY          TIME CMD
43140 pts/1    00:00:00 tcsh
43284 pts/1    00:00:00 salloc
43286 pts/1    00:00:00 tcsh
43321 pts/1    00:00:00 ps

Quindi ho pensato che dovevo eseguirlo con nohup (o all'interno di screen / tmux) in modo da poter uscire. Ho scancato e ucciso il processo e l'ho rifatto senza nohup. Tuttavia, senza la possibilità di modificare il QOS, prevedo che il mio lavoro verrà ucciso. Avevo provato con -t e --qos, ma ho avuto lo stesso errore. Il mio sospetto è che dal momento che non ho fornito esplicitamente --qos, non posso usare --dependency = espandi per modificare il lavoro. Ho usato il qos predefinito ("1 giorno").

La mia domanda supplementare è: devo usare screen / tmux / nohup quando provo a modificare il lavoro?

Inoltre, ci sono informazioni in questo output di squeue che mi dicono se riuscirà o meno ad estendere il lavoro ?:

   JOBID PARTITION MIN_MEMOR         TIME CPUS     PRIORITY          START_TIME  QOS   TIME_LIMIT NAME
14602965      main    387000     20:05:37    3 0.0000038153 2018-11-02T13:36:30 1day   1-00:00:00 freebayes.commands3
14604022      main    387000         2:53    3 0.0000018135 2018-11-03T09:39:14 1day      3:57:00 freebayes.commands3-extend
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.