squeue -u $USER --start
squeue -j <JOB ID>
scontrol show jobid <JOB ID> -dd
rsync <ORIG> <DEST>
cd /prj/<project name>/<user>
scancel <JOB ID>
du -sh <PATH>
rsync -a --ignore-existing <ORIG> <DEST>
salloc --nodes=1 -p nvidia_small -J configuracao
ou
salloc --nodes=1 -p sequana_gpu_shared -J configuracao --time=01:00:00
conda create --prefix /scratch/<project name>/<user>/conda-env python=3.8
or
conda env create -f environment.yml
conda activate /scratch/<project name>/<user>/conda-env
conda
-
ntasks-per-node
entasks
precisa ser igual ao número de nós da fila. Esses números podem ser conferidos nesse link -
Caso utilize o PyTorch, usar a fila
sequana_gpu_shared
, uma vez que há incompatibilidade de versões de pacotes -
O dataset a ser utilizado precisa estar dentro de
SCRATCH
- CA - CANCELLED: O job foi explicitamente cancelado pelo usuário ou pelo administrador.
- CD - COMPLETED: O job foi terminou normalmente, finalizando todos os seus processos em todos os nós.
- CG - COMPLETING: O job está no processo de finalização. Alguns dos processos ainda podem estar em execução em um dos nós.
- F - FAILED: O job terminou com um código de saída diferente de zero, indicando falha na execução/finalização.
- NF - NODE_FAIL: O job terminou devido a uma falha em um ou mais nós.
- PD - PENDING: O job está aguardando em fila pela alocação/liberação de recursos.
- R - RUNNING: O job em execução.
- TO - TIMEOUT: O job foi terminado por ter alcançado o seu limite de tempo.