Bireflection/ai3603_legged_gym

求问go1的reward是如何考虑设计的

shangjaven opened this issue · 2 comments

尝试在原来的legged_gym文件下将a1替换成go1怎么都跑不通,但试了您env/go1/go1_config下的reward权重设计和ppo中用elu激活函数后神奇的能够训练成功了,想问问博主是如何考虑来设计的呢,看了您文件里的注释,感觉您对每一个reward权重大小代表的什么也很明了,方便问问是如何学习的吗~谢谢博主!

其实我们也对reward不是很清楚,我们也是仿照的把a1换成go1,reward也没有做很多调整,为了解决大作业的指标加了一些特定的reward。elu的话我记得原代码里面默认就是elu,其他的激活函数效果都不大好

感谢博主的回复!