datawhalechina/easy-rl

强化学习中文教程（蘑菇书🍄），在线阅读地址：https://datawhalechina.github.io/easy-rl/

Jupyter NotebookNOASSERTION

Issues

RuntimeError: in a2c.py An attempt has been made to start a new process before the current process has finished its bootstrapping phase. This probably means that you are not using fork to start your child processes and you have forgotten to use the proper idiom in the main module
#166 opened a month ago by chensisi0730
0
Typo 汇总
#160 opened 6 months ago by qiwang067
3
There are one suggestion for a word
#165 opened 2 months ago by shi-yang999
2
第三章第四节书中60页价值函数是单调的证明过程是不是有问题？
#163 opened 3 months ago by lixinliu1995
2
关于书中DDPG算法的疑问
#146 opened a year ago by yxz777
1
DuelingDQN.ipynb中可能存在的两个BUG~
#140 opened a year ago by libermeng
2
运行Q-learning探索策略研究.ipynb时报错： AttributeError: 'numpy.random._generator.Generator' object has no attribute 'rand'
#164 opened 4 months ago by jay-bo
0
关于全书结构的建议
#161 opened 5 months ago by chenslcool
1
PPO算法的实现, 为啥要给概率取对数?
#147 opened 6 months ago by chzhan
2
/chapter14/chapter14
#157 opened 7 months ago by qiwang067
0
/chapter14/chapter14
#156 opened 7 months ago by qiwang067
0
/chapter14/chapter14
#158 opened 7 months ago by qiwang067
0
《9.3 优势演员-评论员算法》的公式（9.3）错误
#155 opened 7 months ago by Sjtu-hyg
3
TypeError: __init__() got an unexpected keyword argument 'new_step_api'
#154 opened 7 months ago by morning-hao
3
notebooks/Q-learning/QLearning.ipynb的绘图代码存在一个小瑕疵
#153 opened 7 months ago by 976213951
1
怎么在Linux服务器上运行demo程序？
#124 opened 2 years ago by bjzhb666
2
连续动作空间的PPO算法
#149 opened 8 months ago by YZH-WDNMD
2
关于条件全期望公式的推导的问题
#152 opened 9 months ago by SacuraA
1
纸质版是怎么做的？
#151 opened 9 months ago by powergiant
1
dqn算法问题
#150 opened 10 months ago by ecsfu
0
the version of numpy
#125 opened a year ago by HanggeAi
0
DDPG算法实现出现问题
#144 opened a year ago by yxz777
0
图6.8左下角标识应该是“动作价值(Q)”?
#143 opened a year ago by xuleimath
1
我在运行DQN代码时，初始的state总会多一个值。
#142 opened a year ago by yxz777
0
添加参考文献
#133 opened a year ago by RudyGuo
1
4.3 REINFORCE：蒙特卡洛策略梯度
#135 opened a year ago by sungaok
1
错别字
#139 opened a year ago by ConnorSiXiong
2
最新的版本，可以出PDF吗
#137 opened a year ago by chensisi0730
2
value_iteration 算法不收敛？
#138 opened 2 years ago by chensisi0730
1
随书代码在哪
#129 opened 2 years ago by GoWithWind2015
6
内容勘误？
#132 opened 2 years ago by zichunxx
3
SAC代码问题
#134 opened 2 years ago by zichunxx
2
第五章勘误
#130 opened 2 years ago by notomatoes
1
Edit problem in Chapter3
#128 opened 2 years ago by mvllwong
1
第四章图4.10标注是不是有误？
#127 opened 2 years ago by njwm
1
1.7.1 Gym示例返回值增多了
#126 opened 2 years ago by neverevergiveup
3
DoubleDQN的upadate()中的reward_batch少了.unsqueeze(1)
#121 opened 2 years ago by beerjtu
1
DoubleDQN和DQN的update函数代码好像是一样的
#123 opened 2 years ago by FinnJob
1
Spelling mistake
#122 opened 2 years ago by d3ac
1
MonteCarlo code error
#120 opened 2 years ago by beifeng1937
1
PPO advantage calculation
#114 opened 2 years ago by XinXU-USTC
1
请问以后会增加MARL算法吗？
#108 opened 2 years ago by pmy0721
1
Q-learning 出错
#111 opened 2 years ago by ZHUGUODONG1
1
conda的环境需要换成python==3.8了
#115 opened 2 years ago by ExileSaber
1
common文件夹里是不是少个py文件呀
#112 opened 2 years ago by zl-yang
2
DQN代码错误
#116 opened 2 years ago by Solitario119
1
“3.3.1 蒙特卡洛策略评估”中经验均值问题
#113 opened 2 years ago by paulyzhangSmartNews
3
书写错误
#110 opened 2 years ago by tools-only
1
TD3 目标策略平滑化的工作原理和原始论文描述不一致
#109 opened 2 years ago by mabaoer
1
PPO算法状态问题
#106 opened 2 years ago by hxqup
1