ZhiqingXiao/rl-book

第6章 小车上山

YeziPeter opened this issue · 1 comments

请教

  1. 代码清单6-4中,智能体的get_q方法的return,动作价值不是应该权重乘上特征向量吗,但是为什么这里是self.w[features]?

  2. 代码清单6.3 砖瓦编码
    为什么这么第一层是64个砖瓦,剩下7层是81个砖瓦呢?8+1是怎么来的?我的理解是如果选用8层,那么每层是大网格/砖瓦 相当于8*8的小格。可一层覆盖最终有网格/瓦片是怎么决定的呢?

  1. self.w[features].sum() 把系数为1的权重值加起来;
  2. 见勘误和更新中的解释。