todo list
Opened this issue · 6 comments
lezhang-thu commented
请仔细对比tensorpack的train-atari.py文件,对比其中的改动。
例如,InputDesc(tf.uint8, (None,) + IMAGE_SHAPE3, 'state')
这解释了其之后用的image = tf.cast(image, tf.float32) / 255.0
而现有的代码却没有做uint8的改动。值得注意!
lezhang-thu commented
- 何时对网络进行sync?
答:现在的情况,感觉如果在episode结束之后才开始sync, 效果不好。
但即使是每次都sync, 也没有见到很好的效果。基本上都是0.0.
但几乎可以明确,更改反而让它更差了。
lezhang-thu commented
嗯 企业也好 高校也好,先毕业
lezhang-thu commented
FeUdal Networks for Hierarchical Reinforcement Learning
lezhang-thu commented
按照baselines中,对value的clip去掉的做法,依然是不行。感觉似乎是还稍微差一点。
lezhang-thu commented
所有的_on_episode_over
, 涉及standardized advantage function estimate都存在严重的错误!
因为,现在加入了reward_acc
, 所以,实际上操作的是k.value
, 而不是gaelam
.
index有问题!有问题!有问题!