SSRheart/HPC_wiki_docs

Todo List

Closed this issue · 0 comments

  • pycaffe
  • node2 和 node4 down掉的原因排查。 发现是网卡问题
  • tensorflow + horvord 安装 测试
  • 报警 (+ 邮件?)尝试ganglia-monitor
  • 线程限制?
  • torch 出错。排查发现用的torch的modulefile路径有问题,导致walltime和runtime严重不匹配,runtime一直为1s
  • qhold 无效