-
第三讲gridworld问题中的策略评价问题
——来自《强化学习理论与实践- 第二期》·15浏览
如果状态标号是这样的,那是不是下一步的策略评价是
v(s1)=-1+0=-1
v(s2)=-1-14=-15
v(s3)=-1+0.5*(-20)+0.5*(-20)=-21
...
上面算是迭代第一次,然后再迭代第二次,直到收敛为止就是新一次的策略评价结果嘛
-
第三讲gridworld问题中的策略评价问题
——来自《强化学习理论与实践- 第二期》·15浏览
@陈达贵 感谢!