用honcho启动卡在`SingleMachine training context init done`这里
zxgx opened this issue · 2 comments
zxgx commented
请问有什么解决方案吗?是我配置还是哪里的原因吗?
有一点区别就是我没有sudo权限, 不能把nats-server放到/usr/bin,而是在/home下面unzip了release build,然后改的Procfile里nats-server的启动路径,这一步有影响吗?
zxgx commented
另外,也想请教下,persia的env跟torch.distributed兼容吗?
比如dist.get_rank()和persia.env.get_rank()一致吗??
zxgx commented
请问Persia的Dense NN部分是使用的数据并行吗?我仍然没有跑起来,不过我看了examples,发现测试的时候没有使用Datactx.send_data,所以是每个rank上的NN同时跑一样的数据?
如果是的话,理论上测试的时候是否也可以用Datactx来加速呢?
另外不知道能否将论文提到的几个公开数据集,例如criteo 1TB的实验也加到examples中