SSRheart/HPC_wiki_docs

所有任务一直处于Q状态

Closed this issue · 1 comments

表现:

qsub提交的任务全部处在Q状态,手动qrun #jobid 可以启动任务。

可能原因:

如果是重启后发生的,可能是没有正确启动loop_qrun.sh脚本。

详细:

出厂安装的torque不能正确地自动选择任务队列中的任务启动,我们通过/home/user/test_pbs/chk_gpu/loop_qrun.sh 来循环检查任务队列以实现这一功能。但似乎之前写入到/etc/rc.d/rc.local中的随开机启动运行上述脚本的命令没有正确执行(或者执行顺序存在问题?)。

18/11/28发生了一次Master误重启事件,loop_qrun.sh 随开机启动,但没有正确完成检查任务队列并启动等待状态中的任务的功能。kill该脚本任务并手动重新运行得到解决。

未来的相似事件参考解决策略:

如果是重启后发生的,全部任务处于Q状态,但是手动qrun #jobid 可以启动任务的情况,考虑检查上述脚本的执行状态。进行启动 / kill并重启 等操作。

之后如遇到Master开机重启的情况,检查该脚本状态。

使用ps aux | grep qrun查看脚本是否在运行。
kill -9 #process_id 来停止运行
nohup sh /home/user/test_pbs/chk_gpu/loop_qrun.sh >/dev/null 2>&1 &来将任务放到后台不中断运行。