PPO.py里的140行是不是写错了
Closed this issue · 1 comments
hykon123 commented
PPO.py里的140行是不是写错了,returns = advantage(batch) + values[batch] ,为什么是advantage,而不是reward
johnjim0816 commented
没,ppo里面计算的的确是优势,由于最近版本更新了,同学再看下~
Closed this issue · 1 comments
PPO.py里的140行是不是写错了,returns = advantage(batch) + values[batch] ,为什么是advantage,而不是reward
没,ppo里面计算的的确是优势,由于最近版本更新了,同学再看下~