johnjim0816/rl-tutorials

PPO.py里的140行是不是写错了

Closed this issue · 1 comments

PPO.py里的140行是不是写错了,returns = advantage(batch) + values[batch] ,为什么是advantage,而不是reward

没,ppo里面计算的的确是优势,由于最近版本更新了,同学再看下~