RL 强化学习代码 SAC 初始要随机多一些step(10000),不然效果很差,训练 500 Episode以上 #存疑,有可能是环境初始化错误 Unity中环境要设置MaxStep 逆课程学习: 可以通过action来初始化unity中小车的位置 看一下GRU用法