我的问答 - mushuiliu的个人主页 - 深蓝学院 - 专注人工智能与自动驾驶的学习平台

mushuiliu

暂无个性签名

暂无个人介绍

第四讲MC方法中常量步长公式的疑问
——来自《强化学习理论与实践- 第二期》·10浏览

这一页PPT中，视频中讲解时说V1是初始的估计值，是指初始状态的估计值，还是初始状态的初始估计值，还是任意一个状态的初始估计值.....

还有这里的小g_i，所代表的含义也不清楚，可否再描述一下～

谢谢！
第三讲gridworld问题中的策略评价问题
——来自《强化学习理论与实践- 第二期》·15浏览

加入网格世界做一步策略提升后，还没有结束，下一步是不是还要进行策略评价，那么画圈的图中，我们要做策略评价，应该怎么弄，如何去计算后每一个的状态（或每一格）的v函数是多少呢？
动态规划中贝尔曼期望方程迭代式策略评价的公式下标疑问
——来自《强化学习理论与实践- 第一期》·7浏览

有个问题想请教下各位大佬，这边第一个公式是说我们可以用后继状态（是不是也能理解为下一个状态s'）来更新状态s的v函数。

那第二个这边v的下标k+1，和k是代表什么呢，不是很明白这个迭代的过程和含义

谢谢啦

服务协议反馈建议联系邮箱：service@shenlanxueyuan.com

友情链接：

在线咨询

返回顶部