todo list

Question

todo list

Opened this issue 7 years ago · 6 comments

请仔细对比tensorpack的train-atari.py文件，对比其中的改动。
例如，InputDesc(tf.uint8, (None,) + IMAGE_SHAPE3, 'state')
这解释了其之后用的image = tf.cast(image, tf.float32) / 255.0
而现有的代码却没有做uint8的改动。值得注意！

Answer 1 · 2017-07-25T07:52:13.000Z

何时对网络进行sync?
答：现在的情况，感觉如果在episode结束之后才开始sync, 效果不好。
但即使是每次都sync, 也没有见到很好的效果。基本上都是0.0.
但几乎可以明确，更改反而让它更差了。

Answer 2 · 2017-08-29T11:54:43.000Z

嗯企业也好高校也好，先毕业

Answer 3 · 2017-09-05T02:58:29.000Z

FeUdal Networks for Hierarchical Reinforcement Learning

Answer 4 · 2017-09-05T02:59:21.000Z

按照baselines中，对value的clip去掉的做法，依然是不行。感觉似乎是还稍微差一点。

Answer 5 · 2017-09-05T05:52:04.000Z

https://www2.eecs.berkeley.edu/Pubs/TechRpts/2016/EECS-2016-217.html

Answer 6 · 2017-09-05T15:27:05.000Z

所有的_on_episode_over, 涉及standardized advantage function estimate都存在严重的错误！
因为，现在加入了reward_acc, 所以，实际上操作的是k.value, 而不是gaelam.
index有问题！有问题！有问题！