-
第四讲MC方法中常量步长公式的疑问
——来自《强化学习理论与实践- 第二期》·10浏览
这一页PPT中,视频中讲解时说V1是初始的估计值,是指初始状态的估计值,还是初始状态的初始估计值,还是任意一个状态的初始估计值.....
还有这里的小g_i,所代表的含义也不清楚,可否再描述一下~
谢谢!
-
第三讲gridworld问题中的策略评价问题
——来自《强化学习理论与实践- 第二期》·15浏览
加入网格世界做一步策略提升后,还没有结束,下一步是不是还要进行策略评价,那么画圈的图中,我们要做策略评价,应该怎么弄,如何去计算后每一个的状态(或每一格)的v函数是多少呢?
-
有个问题想请教下各位大佬,这边第一个公式是说我们可以用后继状态(是不是也能理解为下一个状态s')来更新状态s的v函数。
那第二个这边v的下标k+1,和k是代表什么呢,不是很明白这个迭代的过程和含义
谢谢啦