蒙特卡罗采样动作和状态 temp变量为什么是累加呢
ChengchengDu opened this issue · 0 comments
ChengchengDu commented
马尔可夫决策,使用蒙特卡罗估计状态价值时,为什么采样动作和状态的时候,temp是累积的呢?具体代码在3.5节sample函数中的temp+=1
ChengchengDu opened this issue · 0 comments
马尔可夫决策,使用蒙特卡罗估计状态价值时,为什么采样动作和状态的时候,temp是累积的呢?具体代码在3.5节sample函数中的temp+=1