Reversi_PolicyGradient: A Python repository from Gosicfly

Need: Pytorch 0.3, Python3.5+

如果PolicyGradient版本运行结果有异常，将本项目的reversi/中的reversi.py覆盖掉reversi的原始版本(在gym库的对应位置)。原始的reversi.py中有一点小Bug，会导致Policy Gradient训练不出来。

以上改动不会影响gym的正常运行。

model是已经训练好的模型（训练轮数为1000轮），默认设置黑棋为agent，与随机策略的白棋博弈胜率在80%附近，因为抽样策略的缘故会有些许波动。(理论上胜率会随着训练轮数的增长而提升一些，并且更稳定)。

调用训练好的模型时，将RL_QG_agent的train参数设为False.

如果想自己训练模型，将train设为True即可。模型默认保存为'model'.所以会覆盖掉已存在的model。可在RL_QG_agent源码中修改。

运行：(调用已训练好model)

python3 reveersi_main.py

预期输出：

################################################################

Load model successfully!

Episode 100 done

模型胜利次数：82 总次数：100

模型胜率：0.82

Gosicfly/Reversi_PolicyGradient