Issues
- 10
第十四章SAC 算法代码实践中tanh_normal分布的对数概率密度不太对
#44 opened by SurprisedCat - 0
第九章策略梯度的损失函数
#79 opened by mgt-lya - 1
第八章 `In [7]`代码块,VAnet() 疑似有误
#54 opened by Aegis1863 - 1
用spyder跑PPO代码,kernel自动关闭了
#67 opened by Shawkncok - 2
PPO在单摆实验中为什么要对reward=(reward+8)/8的修改呢?
#70 opened by xxoospring - 0
https://www.boyuai.com/进不去了
#78 opened by virtualxiaoman - 0
马尔可夫决策过程,MDP转化为MRP时计算的P疑似有误
#77 opened by zyy777 - 2
DQN和AC算法中的q_targets的loss计算为什么最后要乘(1-done)呢?
#48 opened by superbignut - 0
关于web教程布局的建议
#76 opened by dctwan15 - 1
CartPole-v0环境训练reward超过上限值200?
#72 opened by SHTechBoBo - 0
第十三章 DDPG算法 代码实践中的一点疏漏
#75 opened by xiyanzzz - 0
多臂老虎机的代码里面init_prob为什么是1.0?
#74 opened by mafan1506 - 0
3.5公式不准确
#41 opened by administrator418 - 0
关于环境初始化的一点提示
#73 opened by Summer907 - 0
网页版教程 3.3.2 价值函数 推导过程有些模糊
#71 opened by wangdehua01 - 1
21章MADDPG代码问题,存在维度不匹配
#61 opened by CorneliusDeng - 1
DQN ReplayBuffer
#68 opened by xxoospring - 3
- 3
第七章DQN代运行报错
#50 opened by ShuoZheLi - 1
3.5公式错误
#37 opened by StevenJokess - 0
SAC伪代码存在一点小问题
#69 opened by taojunhui - 3
将AC改为off-policy后,每次训练500条左右的经验就会报错,显示action_dist = torch.distributions.Categorical(probs)这行代码的运行结果为tensor([[nan, nan]]
#66 opened by Chensyfighting - 6
- 1
7.4 DQN 算法反向传播有没有进行求导??
#64 opened by anranyicheng - 1
- 0
SAC算法——状态价值函数存在问题
#63 opened by Dilettante258 - 1
- 1
第七章DNQ回报超出200
#59 opened by KingOfChuXuan - 0
已解决
#58 opened by Thovenfish - 0
- 8
- 1
MARL的PPT的第7页和8页参考文献咋相同?
#56 opened by StevenJokess - 2
Dueling DQN部分的疑问
#40 opened by Ruanzhh - 0
第三章 马尔科夫决策过程 3.3.1计算回报的函数有问题
#55 opened by Sen1553 - 0
第8章 拓展阅读公式推导结果有误,补充分部积分过程
#53 opened by Aegis1863 - 4
- 0
第9章-策略梯度算法 中的交叉熵损失体现在代码哪里 ?
#52 opened by chensisi0730 - 0
制作了 EPUB 格式
#49 opened by wizardforcel - 0
蒙特卡罗采样动作和状态 temp变量为什么是累加呢
#47 opened by ChengchengDu - 1
- 0
- 1
第十六章 模型预测控制 EnsembleModel类:train方法的问题
#43 opened by Yandong23 - 0
第20章 未定义win?
#42 opened by beyondliaaaa - 0
网页版本与纸质书的区别?
#39 opened by sibangde - 0
- 0
14.3公式错误
#36 opened by StevenJokess - 0
1.3节强化学习的环境中的公式含义不清
#35 opened by qixitan - 1
2.5公式错误
#34 opened by StevenJokess - 0
关于使用multiDiscrete acttion spaces的例子
#33 opened by jianzuo - 0
2.4公式错误
#32 opened by StevenJokess