boyu-ai/Hands-on-RL

Dueling DQN部分的疑问

Opened this issue · 2 comments

在介绍Dueling DQN的部分,描述到”在同一个状态下,所有动作的优势值之和为 0,因为所有动作的动作价值的期望就是这个状态的状态价值。“,我的理解是所有动作的优势值在策略 pi 下的期望为0,而不是之和为0?不知道我的理解有没有问题。

一组数据每个值减去该组数据的平均值,这组数据的和就是0了

@Ruanzhh
你的意思是$\sum_{a\in A} (\pi(a|s)A(s,a)) = 0$,可以证明是正确的。
但是书上面的意思是\sum_{a\in A} A(s,a) = 0$。由$A(s,a)=Q(s,a)-V(s)$与$V^\pi(s)=E_\pi[Q^\pi(s,a)]$可得。