Dueling DQN部分的疑问

Question

Opened this issue a year ago · 2 comments

在介绍Dueling DQN的部分，描述到”在同一个状态下，所有动作的优势值之和为 0，因为所有动作的动作价值的期望就是这个状态的状态价值。“，我的理解是所有动作的优势值在策略 pi 下的期望为0，而不是之和为0？不知道我的理解有没有问题。

Answer 1 · 2023-07-20T15:06:24.000Z

一组数据每个值减去该组数据的平均值，这组数据的和就是0了

Answer 2 · 2023-08-28T12:13:49.000Z

@Ruanzhh
你的意思是$\sum_{a\in A} (\pi(a|s)A(s,a)) = 0$，可以证明是正确的。
但是书上面的意思是\sum_{a\in A} A(s,a) = 0$。由$A(s,a)=Q(s,a)-V(s)$与$V^\pi(s)=E_\pi[Q^\pi(s,a)]$可得。