马尔可夫决策过程，MDP转化为MRP时计算的P疑似有误

Question

马尔可夫决策过程，MDP转化为MRP时计算的P疑似有误

Opened this issue 5 months ago · 1 comments

gamma = 0.5
P_from_mdp_to_mrp = [
[0.5, 0.5, 0.0, 0.0, 0.0],
[0.5, 0.0, 0.5, 0.0, 0.0],
[0.0, 0.0, 0.0, 0.5, 0.5],
[0.0, 0.1, 0.2, 0.2, 0.5],
[0.0, 0.0, 0.0, 0.0, 1.0],
]
P_from_mdp_to_mrp = np.array(P_from_mdp_to_mrp)
R_from_mdp_to_mrp = [-0.5, -1.5, -1.0, 5.5, 0]

V = compute(P_from_mdp_to_mrp, R_from_mdp_to_mrp, gamma, 5)
print("MDP中每个状态价值分别为\n", V)`
其中P[4,4]应该是0吧？

Answer 1 · 2024-07-06T02:39:46.000Z

终止状态有个自己到自己的transit probability = 1，这个在状态转移图上是默认不用画出来的