poisson-AI/doudizhu-rl

强化学习训练斗地主 / doudizhu AI using reinforcement learning.

Python

模型测试

DHCP是rule based model，用来训练网络的模型，且训练的都是地主。

每个模型进行了1000轮测试，胜率如下所示。

地主开始训练时刻	训练第n次结果	对抗random胜率	对抗RHCP农民胜率
0802_1836	78500_44	85	37.9
0803_0959	8000	83	37.7
0804_0912	4500_57	91.5	53.6
0804_1045	3500_53	91.1	54.4
0804_1423	3700_54	95.9	56.2
0804_2022	lord_scratch4000	94.5	54.3
0805_1019	2900_54	93.4	55.8
0805_1049	lord_4000	—	58.1
0806_1906	zero_lord_3000	—	52
0806_1906	zero_lord_4000	—	50.5
0806_1905	zero_lord_7000	—	42.8
0806_1905	zero_lord_13000	—	28.1
0807_1340(调整γ和状态)	lord_2900_54	—	53.1
0807_1340(调整γ和状态)	lord_4000	—	55.7
0808_0852	3300_53	-	57.5
0808_0852	3500_59	-	58.7
0808_0852	4700_60	-	55.2

农民开始训练时刻	训练第n次结果	对抗DHCP地主胜率
0806_1906	zero_up+down_3000（农民对抗地主）	17.0+21.3
0806_1906	zero_up+down_4000（农民对抗地主）	18.6+19.3
0806_1905	zero_up+down_7000（农民对抗地主）	15.6+18.7
0806_1905	zero_up+down_13000（农民对抗地主）	13.1+16.7
0807_1344(调整γ和状态)	zero_up+down_3000（农民对抗地主）	20.8+21.8（规则地主：57.4）
0807_1344(调整γ和状态)	zero_up+down_4000（农民对抗地主）	17.2+25.8（规则地主：57.0）
0807_1344(调整γ和状态)	zero_up+down_6000（农民对抗地主）	21.9+23.5（规则地主：54.6）
0808_0918	5800_59	19.6+20.2
0808_0854	4000	21.3+24.8
0808_0854	6000	22.8+21.6