boyu-ai/Hands-on-RL

https://hrl.boyuai.com/

Jupyter NotebookApache-2.0

Issues

第十四章SAC 算法代码实践中tanh_normal分布的对数概率密度不太对
#44 opened a year ago by SurprisedCat
10
第九章策略梯度的损失函数
#79 opened 13 days ago by mgt-lya
0
第八章 `In [7]`代码块，VAnet() 疑似有误
#54 opened a year ago by Aegis1863
1
用spyder跑PPO代码，kernel自动关闭了
#67 opened 6 months ago by Shawkncok
1
PPO在单摆实验中为什么要对reward=(reward+8)/8的修改呢？
#70 opened 6 months ago by xxoospring
2
https://www.boyuai.com/进不去了
#78 opened 2 months ago by virtualxiaoman
0
马尔可夫决策过程，MDP转化为MRP时计算的P疑似有误
#77 opened 2 months ago by zyy777
0
DQN和AC算法中的q_targets的loss计算为什么最后要乘（1-done）呢？
#48 opened a year ago by superbignut
2
关于web教程布局的建议
#76 opened 3 months ago by dctwan15
0
CartPole-v0环境训练reward超过上限值200？
#72 opened 3 months ago by SHTechBoBo
1
第十三章 DDPG算法代码实践中的一点疏漏
#75 opened 3 months ago by xiyanzzz
0
多臂老虎机的代码里面init_prob为什么是1.0?
#74 opened 3 months ago by mafan1506
0
3.5公式不准确
#41 opened 3 months ago by administrator418
0
关于环境初始化的一点提示
#73 opened 4 months ago by Summer907
0
网页版教程 3.3.2 价值函数推导过程有些模糊
#71 opened 4 months ago by wangdehua01
0
21章MADDPG代码问题，存在维度不匹配
#61 opened 9 months ago by CorneliusDeng
1
DQN ReplayBuffer
#68 opened 7 months ago by xxoospring
1
20章的代码问题
#60 opened 9 months ago by Wayne857
3
第七章DQN代运行报错
#50 opened a year ago by ShuoZheLi
3
3.5公式错误
#37 opened a year ago by StevenJokess
1
SAC伪代码存在一点小问题
#69 opened 7 months ago by taojunhui
0
将AC改为off-policy后，每次训练500条左右的经验就会报错，显示action_dist = torch.distributions.Categorical(probs)这行代码的运行结果为tensor([[nan, nan]]
#66 opened 7 months ago by Chensyfighting
3
ValueError: expected sequence of length 3 at dim 2 (got 0)
#31 opened a year ago by Yang1231
6
7.4 DQN 算法反向传播有没有进行求导？？
#64 opened 8 months ago by anranyicheng
1
公式错误---https://hrl.boyuai.com/chapter/1/时序差分算法#55-q-learning-算法
#65 opened 7 months ago by wslgqq277g
1
SAC算法——状态价值函数存在问题
#63 opened 8 months ago by Dilettante258
0
运行环境
#62 opened 8 months ago by zheng-lv
1
第七章DNQ回报超出200
#59 opened 9 months ago by KingOfChuXuan
1
已解决
#58 opened 9 months ago by Thovenfish
0
失业三年人不认可该观点！：UCB的U_t(a)的分母分母中为拉动每根拉杆的次数加上常数 1 ，这确保每个动作**至少被探索一次**
#57 opened 9 months ago by StevenJokess
0
第7章-DQN算法训练时报出错误 ValueError: expected sequence of length 4 at dim 2 (got 0)
#30 opened a year ago by horacehht
8
MARL的PPT的第7页和8页参考文献咋相同？
#56 opened 10 months ago by StevenJokess
1
Dueling DQN部分的疑问
#40 opened a year ago by Ruanzhh
2
第三章马尔科夫决策过程 3.3.1计算回报的函数有问题
#55 opened a year ago by Sen1553
0
第8章拓展阅读公式推导结果有误，补充分部积分过程
#53 opened a year ago by Aegis1863
0
关于开发环境配置
#51 opened a year ago by mellody11
4
第9章-策略梯度算法中的交叉熵损失体现在代码哪里？
#52 opened a year ago by chensisi0730
0
制作了 EPUB 格式
#49 opened a year ago by wizardforcel
0
蒙特卡罗采样动作和状态 temp变量为什么是累加呢
#47 opened a year ago by ChengchengDu
0
DDPG算法篇笔误
#46 opened a year ago by Neuerliu
1
第18章cql代码
#45 opened a year ago by Jaceyxy
0
第十六章模型预测控制 EnsembleModel类：train方法的问题
#43 opened a year ago by Yandong23
1
第20章未定义win?
#42 opened a year ago by beyondliaaaa
0
网页版本与纸质书的区别？
#39 opened a year ago by sibangde
0
Action Space Limitations in Continuous PPO Algorithm in Chapter 12
#38 opened a year ago by ASUKaiwenFang
0
14.3公式错误
#36 opened a year ago by StevenJokess
0
1.3节强化学习的环境中的公式含义不清
#35 opened a year ago by qixitan
0
2.5公式错误
#34 opened a year ago by StevenJokess
1
关于使用multiDiscrete acttion spaces的例子
#33 opened a year ago by jianzuo
0
2.4公式错误
#32 opened a year ago by StevenJokess
0