PersiaML/PERSIA

用honcho启动卡在`SingleMachine training context init done`这里

zxgx opened this issue · 2 comments

zxgx commented

请问有什么解决方案吗?是我配置还是哪里的原因吗?
有一点区别就是我没有sudo权限, 不能把nats-server放到/usr/bin,而是在/home下面unzip了release build,然后改的Procfile里nats-server的启动路径,这一步有影响吗?

zxgx commented

另外,也想请教下,persia的env跟torch.distributed兼容吗?
比如dist.get_rank()和persia.env.get_rank()一致吗??

zxgx commented

请问Persia的Dense NN部分是使用的数据并行吗?我仍然没有跑起来,不过我看了examples,发现测试的时候没有使用Datactx.send_data,所以是每个rank上的NN同时跑一样的数据?
如果是的话,理论上测试的时候是否也可以用Datactx来加速呢?
另外不知道能否将论文提到的几个公开数据集,例如criteo 1TB的实验也加到examples中