Chapter2 Discussion
PaParaZz1 opened this issue · 8 comments
PaParaZz1 commented
本 issue 将会追踪和记录各种有关课程第二讲的问题和思考,欢迎有兴趣的同学在这个 issue 中评论,课程组会定期整理信息。
最新的 第二讲QA 合集文档(2023.05.24更新)
EasonQYS commented
这个应用案例Windows下能运行吗?
希望能推荐一些先运行起来的,先看代码后应用感觉比较难理解。
前三个代码运行好像都没有输出,怎么看有什么效果呢?
PaParaZz1 commented
这个应用案例Windows下能运行吗? 希望能推荐一些先运行起来的,先看代码后应用感觉比较难理解。 前三个代码运行好像都没有输出,怎么看有什么效果呢?
应该是可以的,如果运行出现问题,可以贴一下报错截图or训练日志截图我们看下
cgchrfchscyrh commented
您好,请问如果是单智能体的多维离散动作空间,相对于路口控制场景的多智能体,代码方面应该如何修改呢?
PaParaZz1 commented
您好,请问如果是单智能体的多维离散动作空间,相对于路口控制场景的多智能体,代码方面应该如何修改呢?
课程第二讲中使用的multi_discrete
方式,就是当做单智能体控制方式,即输入全局的 state,用多维离散 head(代码例子)来输出多个动作。如果是当做多智能体协作的方式来建模,应该参考课程第六讲,使用集中式训练分布式执行(CTDE)的范式来做。
fanbbbb commented
请问连续动作空间下的action mask该如何实现呢
PaParaZz1 commented
请问连续动作空间下的action mask该如何实现呢
这个具体是指什么样的 mask 呢,可以给一个更具体的例子么
7tosmoke commented
单智能体的多维离散动作空间PPO损失函数的熵该怎么确定呢,虽然按照multihead输出了,但是熵还是维度的指数级吧,请教一下这个熵是怎么设置的
huangxiaobing12 commented
想问一下作业里的代码实践第一题重参数化,为什么不使用重参数化求梯度时第一项梯度为0呢