Todo List
Closed this issue · 0 comments
LCAR979 commented
- pycaffe
- node2 和 node4 down掉的原因排查。 发现是网卡问题
- tensorflow + horvord 安装 测试
- 报警 (+ 邮件?)尝试ganglia-monitor
- 线程限制?
- torch 出错。排查发现用的torch的modulefile路径有问题,导致walltime和runtime严重不匹配,runtime一直为1s
- qhold 无效
Closed this issue · 0 comments