我的问答 - mushuiliu的个人主页 - 深蓝学院 - 专注人工智能与自动驾驶的学习平台

mushuiliu

暂无个性签名

暂无个人介绍

第三讲gridworld问题中的策略评价问题
——来自《强化学习理论与实践- 第二期》·15浏览

@陈达贵

如果状态标号是这样的，那是不是下一步的策略评价是

v(s1)=-1+0=-1

v(s2)=-1-14=-15

v(s3)=-1+0.5*(-20)+0.5*(-20)=-21

...

上面算是迭代第一次，然后再迭代第二次，直到收敛为止就是新一次的策略评价结果嘛
第三讲gridworld问题中的策略评价问题
——来自《强化学习理论与实践- 第二期》·15浏览

@陈达贵感谢！

关于我们版权声明联系电话：010-86226736

服务协议反馈建议联系邮箱：service@shenlanxueyuan.com

友情链接：

在线咨询

返回顶部