Opened this issue a year ago · 1 comments
您好,我直接使用demo_A2C_PPO.py训练pendulum环境下的A2C算法无法收敛,可能算法实现上有问题。AgentDiscreteA2C算法仅继承了AgentDiscretePPO,并未实现自己的update_net函数
谢谢,我今天检查一下