lezhang-thu/HelloWorld

todo list

Opened this issue · 6 comments

请仔细对比tensorpack的train-atari.py文件,对比其中的改动。
例如,InputDesc(tf.uint8, (None,) + IMAGE_SHAPE3, 'state')
这解释了其之后用的image = tf.cast(image, tf.float32) / 255.0
而现有的代码却没有做uint8的改动。值得注意!

  1. 何时对网络进行sync?
    答:现在的情况,感觉如果在episode结束之后才开始sync, 效果不好。
    但即使是每次都sync, 也没有见到很好的效果。基本上都是0.0.
    但几乎可以明确,更改反而让它更差了。

嗯 企业也好 高校也好,先毕业

FeUdal Networks for Hierarchical Reinforcement Learning

按照baselines中,对value的clip去掉的做法,依然是不行。感觉似乎是还稍微差一点。

所有的_on_episode_over, 涉及standardized advantage function estimate都存在严重的错误!
因为,现在加入了reward_acc, 所以,实际上操作的是k.value, 而不是gaelam.
index有问题!有问题!有问题!