/chapter6/chapter6
qiwang067 opened this issue · 32 comments
感谢,内容写的很好,但文中有几个小错误,想问下有没有进行反馈的渠道呢?
感谢,内容写的很好,但文中有几个小错误,想问下有没有进行反馈的渠道呢?
感谢您的认可,反馈的话,直接在评论区评论或者提 issue 即可
感谢博主,总结的非常好!
pi理解为动作会更好理解,演员好出戏
对于这个问题“Q:我们明明是要观察 \pi 的值,里面混杂了一些不是 \pi 的经验,这有没有关系?” 我试着解释一下为什么即使经验不是来自于 \pi,我们其实还是可以拿这些经验来估测 Q^{\pi}(s,a)。
因为估计Q^{\pi}(s,a)的时候,如前面所说,不管\pi 是什么policy,我们强制take action a,然后观察到s'和r,这个(s, a, s', r) 跟具体的\pi 无关,因为a是强制执行的。跟\pi 有关的是a',因为a' 依赖于从Q里面找argmax,而Q又依赖于\pi,所以不同的\pi 会有不同的a'。但是任何\pi 都可以拿来采集(s, a, s', r) 然后可以用来更新任何\pi 的Q
pi理解为动作会更好理解,演员好出戏
对于
证明用 π ′比π 好的过程“V (s) < Q (s,π’(s))=E [rt + Q (St+1,π ' (St+1)) |St = s, at =π ' (St)]”中“=”是不是应该换成“<=”
本章的“举例来说,通过下面式子,我们知道G_a的方差相较于某一个状态的奖励,它会是比较大的。Var[kX]=k^2Var[X]”这部分,我觉得不应该用“Var[kX]=k^2Var[X]”表示,而是应该用“各项独立时,和的方差等于方差的和”吧,
即“Var[G_a]=Var[X1+X2+...+Xk]=Var[X1]+Var[X2]+...+Var[Xk]”,
因为G_a=X1+X2+...+Xk,是k个不同的数的和,而不是k*X1,一个数的k倍。
本章的“举例来说,通过下面式子,我们知道G_a的方差相较于某一个状态的奖励,它会是比较大的。Var[kX]=k^2Var[X]”这部分,我觉得不应该用“Var[kX]=k^2Var[X]”表示,而是应该用“各项独立时,和的方差等于方差的和”吧,
即“Var[G_a]=Var[X1+X2+...+Xk]=Var[X1]+Var[X2]+...+Var[Xk]”,
因为G_a=X1+X2+...+Xk,是k个不同的数的和,而不是k*X1,一个数的k倍。
感谢您的反馈,您的反馈中存在一个问题:不同步骤的奖励并不是相互独立的,所以不能使用 “各项独立时,和的方差等于方差的和” 这个方差的性质;
另外,本章的解释确实存在问题(这边为了方便说明问题,简化了一下,假设各个步骤的奖励相同),错误已纠正,内容已更新。
本章的“举例来说,通过下面式子,我们知道G_a的方差相较于某一个状态的奖励,它会是比较大的。Var[kX]=k^2Var[X]”这部分,我觉得不应该用“Var[kX]=k^2Var[X]”表示,而是应该用“各项独立时,和的方差等于方差的和”吧,
即“Var[G_a]=Var[X1+X2+...+Xk]=Var[X1]+Var[X2]+...+Var[Xk]”,
因为G_a=X1+X2+...+Xk,是k个不同的数的和,而不是k*X1,一个数的k倍。
感谢您的反馈,您的反馈中存在一个问题:不同步骤的奖励并不是相互独立的,所以不能使用 “各项独立时,和的方差等于方差的和” 这个方差的性质;
另外,这边的解释确实有些遗漏(为了方便说明问题,这边简化了一下,假设不同步骤的奖励都是相同的),错误已纠正,内容已更新。
但是书上是这样写的: 在 2022-02-22 14:07:50,"Qi Wang" @.> 写道: 证明用 π ′比π 好的过程“V (s) < Q (s,π’(s))=E [rt + Q (St+1,π ' (St+1)) |St = s, at =π ' (St)]”中“=”是不是应该换成“<=” 感谢您的提问,下式就是用“=”,您可以通过Q函数的定义来理解下式。 — Reply to this email directly, view it on GitHub, or unsubscribe. Triage notifications on the go with GitHub Mobile for iOS or Android. You are receiving this because you commented.Message ID: @.>
您这边应该是有张图片没能添加到评论中。
截图为: 邮件内能看到
…
在 2022年2月23日,09:57,Qi Wang @.***> 写道: 但是书上是这样写的: 在 2022-02-22 14:07:50,"Qi Wang" @.> 写道: 证明用 π ′比π 好的过程“V (s) < Q (s,π’(s))=E [rt + Q (St+1,π ' (St+1)) |St = s, at =π ' (St)]”中“=”是不是应该换成“<=” 感谢您的提问,下式就是用“=”,您可以通过Q函数的定义来理解下式。 — Reply to this email directly, view it on GitHub, or unsubscribe. Triage notifications on the go with GitHub Mobile for iOS or Android. You are receiving this because you commented.Message ID: @.> 您这边应该是有张图片没能添加到评论中。 — Reply to this email directly, view it on GitHub, or unsubscribe. Triage notifications on the go with GitHub Mobile for iOS or Android. You are receiving this because you commented.
抱歉了,我这边无论是邮件还是 GitHub 上都看不到,可能您那边上传图片有些问题。
这次能看到吗?
…
-- 发自我的网易邮箱手机智能版 在 2022-02-23 13:56:24,"Qi Wang" @.> 写道: 截图为: 邮件内能看到 … 在 2022年2月23日,09:57,Qi Wang @.> 写道: 但是书上是这样写的: 在 2022-02-22 14:07:50,"Qi Wang" @.> 写道: 证明用 π ′比π 好的过程“V (s) < Q (s,π’(s))=E [rt + Q (St+1,π ' (St+1)) |St = s, at =π ' (St)]”中“=”是不是应该换成“<=” 感谢您的提问,下式就是用“=”,您可以通过Q函数的定义来理解下式。 — Reply to this email directly, view it on GitHub, or unsubscribe. Triage notifications on the go with GitHub Mobile for iOS or Android. You are receiving this because you commented.Message ID: @.> 您这边应该是有张图片没能添加到评论中。 — Reply to this email directly, view it on GitHub, or unsubscribe. Triage notifications on the go with GitHub Mobile for iOS or Android. You are receiving this because you commented. 抱歉了,我这边无论是邮件还是 GitHub 上都看不到,可能您那边上传图片有些问题。 — Reply to this email directly, view it on GitHub, or unsubscribe. Triage notifications on the go with GitHub Mobile for iOS or Android. You are receiving this because you commented.Message ID: @.***>
看不到,要不您通过百度网盘或者其他方式分享一下。
hi,这是我用百度网盘分享的文件~复制这段内容打开「百度网盘」APP即可获取。 链接:https://pan.baidu.com/s/1FoG7KGanmEBNpOh6ZMZr6A 提取码:B2h4
…
在 2022年2月23日,20:15,Qi Wang @.> 写道: 这次能看到吗? … -- 发自我的网易邮箱手机智能版 在 2022-02-23 13:56:24,"Qi Wang" @.> 写道: 截图为: 邮件内能看到 … 在 2022年2月23日,09:57,Qi Wang @.> 写道: 但是书上是这样写的: 在 2022-02-22 14:07:50,"Qi Wang" @.> 写道: 证明用 π ′比π 好的过程“V (s) < Q (s,π’(s))=E [rt + Q (St+1,π ' (St+1)) |St = s, at =π ' (St)]”中“=”是不是应该换成“<=” 感谢您的提问,下式就是用“=”,您可以通过Q函数的定义来理解下式。 — Reply to this email directly, view it on GitHub, or unsubscribe. Triage notifications on the go with GitHub Mobile for iOS or Android. You are receiving this because you commented.Message ID: @.> 您这边应该是有张图片没能添加到评论中。 — Reply to this email directly, view it on GitHub, or unsubscribe. Triage notifications on the go with GitHub Mobile for iOS or Android. You are receiving this because you commented. 抱歉了,我这边无论是邮件还是 GitHub 上都看不到,可能您那边上传图片有些问题。 — Reply to this email directly, view it on GitHub, or unsubscribe. Triage notifications on the go with GitHub Mobile for iOS or Android. You are receiving this because you commented.Message ID: @.> 看不到,要不您通过百度网盘或者其他方式分享一下。 — Reply to this email directly, view it on GitHub, or unsubscribe. Triage notifications on the go with GitHub Mobile for iOS or Android. You are receiving this because you commented.
看到图片了,感谢您的纠错👍,内容已更新。
谢谢博主,内容写的太棒了,大有收获~我想问一个小问题,在证明π′(s)≥Vπ(s)时候,为什么最后的Vπ(s)没有考虑折扣价值(即为什么没有γ这个折扣率)?
谢谢博主,内容写的太棒了,大有收获~我想问一个小问题,在证明π′(s)≥Vπ(s)时候,为什么最后的Vπ(s)没有考虑折扣价值(即为什么没有γ这个折扣率)?
感谢您的提问,这边是简化了一下,没有考虑折扣因子γ;
考虑折扣因子的话,证明过程也是类似的。
$Q π(s t,a t)=r t+Q π(s t+1,π(s t+1))$ 想问一下这个式子为什么成立呐,可以给一个链接吗
建议您看一下 Q 函数的定义:
https://datawhalechina.github.io/easy-rl/#/chapter2/chapter2?id=value-function-for-mdp
$Q π(s t,a t)=r t+Q π(s t+1,π(s t+1))$ 想问一下这个式子为什么成立呐,可以给一个链接吗建议您看一下 Q 函数的定义:
https://datawhalechina.github.io/easy-rl/#/chapter2/chapter2?id=value-function-for-mdp
您好,我的困惑是Qπ(st,at)-rt不是应该等于V(s t+1)的期望吗?
DQN只适合在连续状态空间且离散动作空间中使用吧,本文一开始的“为了在连续的状态和动作空间中计算值函数 Q^{\pi}(s,a)Q π(s,a)”是不是不太严谨
DQN只适合在连续状态空间且离散动作空间中使用吧,本文一开始的“为了在连续的状态和动作空间中计算值函数 Q^{\pi}(s,a)Q π(s,a)”是不是不太严谨
@hhq779613975 感谢您的纠错:+1:,DQN 确实只适合在连续状态空间且离散动作空间中使用。相关内容已更新,错误已纠正。
$Q π(s t,a t)=r t+Q π(s t+1,π(s t+1))$ 想问一下这个式子为什么成立呐,可以给一个链接吗建议您看一下 Q 函数的定义:
https://datawhalechina.github.io/easy-rl/#/chapter2/chapter2?id=value-function-for-mdp您好,我的困惑是Qπ(st,at)-rt不是应该等于V(s t+1)的期望吗?
建议您看一下 backup diagram 这部分:https://datawhalechina.github.io/easy-rl/#/chapter2/chapter2?id=backup-diagram
6.2节中对图6.6(a)和6.6(b)的引用错写成6.7(a)与6.7(b)了
6.2节中对图6.6(a)和6.6(b)的引用错写成6.7(a)与6.7(b)了
@chinawang10 感谢您的纠错 👍 ,错误已纠正~
写的非常好,谢谢你
写的非常好,谢谢你
客气啦~ ^v^
为什么V(s_t)=r_t+V(s_{t+1})没有折扣因子\gamma ?