-
第一章课后习题
——来自《强化学习理论与实践- 第二期》·17浏览
会达到某种均衡(纳什均衡)。这个均衡不一定是最优策略,可能会通过自我对弈达到某种较差的平衡点。
比如两个一样的商家打价格战,不断地通过压低价格来打压对方,但是这样可能会双输。
而较优的策略是两者共同定价。
-
这个不是指参数,而是指初始状态。
参数初始化一般都不是0,RNN的初始状态在每个episode处初始化为0是很正常的。
因为RNN的状态代表了过去时刻的“记忆”,在每个episode开始时,认为过去的“记忆”为0是正常的哈。
-
@leafzs 不知道我理解的对不对。
第一种属于,每次拿一个完整的episode去更新,当然初始的时候也会将初始状态置0.
第二种属于,每次从一个episode截下一小部分(这一部分的长度叫做unrolling step)去更新,在这一小部分的开始初始状态设为0.
这里的zerod的意思不是说在episode开始设置,注意“at the start of the update" 和"at the begin of epsiode"的区别。
对于第二种来说,它强行遗忘了unrolling step之前的“记忆”,假设了作出决策只要考虑最近几个状态,因此更难学到“span longer time scales"的funtions。
-
关于批量更新MC与TD
——来自《强化学习理论与实践- 第二期》·16浏览
批量更新指得是每一次更新只会用到一部分的样本,并不是说翻来覆去的用这几个样本更新。
更新实际上是要交替运行下面两步:
1. 采样一些样本,更新当前的值函数或策略
2. 得到新的策略,重新采样。
第一步理论上是需要采样无穷大的样本才能保证收敛到当前策略所对应的值函数。
然而,实际操作时,我们只会采样部分样本去更新,这就叫做批量更新。
不是说采了一些数据就不再采样了哈,是指每次更新只用了一小批数据。
-
关于批量更新MC与TD
——来自《强化学习理论与实践- 第二期》·16浏览
@zhr9651 因为实际使用的时候,一个样本更新一次效率较低。
很多时候,我们的内存是充足的,一次更新一个样本是1s,更新100个样本可能也是1s,这个时候同时更新效率会更高。
-
第四讲MC方法中常量步长公式的疑问
——来自《强化学习理论与实践- 第二期》·10浏览
这里理解方式有两种:
1. 把V1看成一个初始值函数向量,也就是说对所有状态的初始值函数。gi表示第i次迭代,所搜集到的片段下,对每一个状态所求的回报值,也是一个向量。
2. 可以把V1看成任意状态的初始值函数,gi表示第i次迭代时,该状态的回报值。
-
第三讲gridworld问题中的策略评价问题
——来自《强化学习理论与实践- 第二期》·15浏览
直接按照策略评价的算法计算就可以了啊。
比如用迭代式策略评价的算法计算即可啊,你画圈的图代表了策略的概率分布,画圈左边的图代表了值函数的初始值,然后调用迭代式策略评价的算法即可。
-
第三讲gridworld问题中的策略评价问题
——来自《强化学习理论与实践- 第二期》·15浏览
@mushuiliu 是的呢。不过你少算了gamma值
-
值迭代
——来自《强化学习理论与实践- 第二期》·10浏览
1. 两种角度没什么区别,只是帮助大家理解。
2. 不知道你说的最终状态是不是指终止状态,如果是的话,终止状态的值函数是已知的。因为终止状态的奖励是人为定义的,而且由于终止状态无后继状态,因此,终止状态的值函数就是我们所定义的奖励(一般为0)。
-
一般来说,终止状态是0,是不需要求的,不要写到未知数里面。
另外,即便有环,在gamma=1的情况下也不会导致循环,除非这个环跳不出去。你这里还是存在一些概率使得环跳出去的。比如说,连续玩n步手机的概率是0.9^n,这个概率会逐渐衰减到0。
-
另外,你需要分析一下,这个I-gamma * P的矩阵究竟是什么形式,到底是哪一个状态所对应的行导致了奇异矩阵?
这里的话好像是因为终止状态当未知数导致的?
-
你这个是不是把phone的奖励给写错了啊?我记得应该奖励是-1的啊
-
是下一步的,t是倒着算的,因为我们这里计算的是Q函数,对于当前时刻来说,St和At已经固定了,不同策略主要影响的是未来的轨迹的分布。
-
同学你好:
一:smooth_movement 指的是机器人的动作切换的时候不要太猛烈,要有一个过程。这是在实体机器人中的问题。
二:确实可以。
三:不矛盾。我的课件上并不是说不能和时间相关,只是举了个例子。在有些情况下,时间是可以优化的,比如走迷宫,尽可能快的走出去。但是有些时候,有些时间是不可优化的,比如人应该做什么策略才能保证时间不流逝。我这边只是说明,设置奖励的时候,需要对可以优化的东西设计奖励。
四:没有统一的经验值,一般需要通过做实验调节。
-
@leafzs 关键词是“jerkiness",这个表示急动的意思,意思是机器人如果动作猛烈,就给负的奖励。
-
蒙特卡洛优化ε贪婪策略提升定理
——来自《强化学习理论与实践- 第二期》·5浏览
你这个推导有问题,pi(a|s)是由上一个策略mu所对应的q_mu所导出来的epsilon贪婪策略,因此q_pi(s, A*) 并不等于max_a q_pi(s, a),因为A*是来自 argmax q_mu(s, a)。
合理的推导是对于Sigma求和式中,q_pi(s, a)前的因子是一个【0,1】之间且加权求和为1的项,相当于把q_pi(s, a)按比值分配,无论怎么分配肯定不如取max来的大,所以大于等于号成立。
-
强化学习中的状态定义有什么要求
——来自《强化学习理论与实践- 第二期》·15浏览
同学你好:
课程中举的例子中:科目二确实不包含历史信息,但是历史信息没用。
因为你在科目二采取动作,是不管你科目二之前是怎么跳转过来的。比如说,在“科目二”中采取“学习”的动作,是一定会跳转到“科目三”的。这个时候无论你是从科目一跳到科目二的,还是挂科了变成科目二的,都没有关系。
-
强化学习中的状态定义有什么要求
——来自《强化学习理论与实践- 第二期》·15浏览
@sqqc2015 确实是只需要考虑如何从当前状态到出口,但是对于3D迷宫来说,不知道过去的位置是不足以作出最优的决策的。因为这个时候你不知道你所处的位置,如果不记得过去的话,是会一直绕路的。
-
策略迭代
——来自《强化学习理论与实践- 第二期》·29浏览
同学你好:
对于你的第一个问题:你的理解是正确的呢。
第二个问题:我没太看懂你的问题,按照你的值函数表格,红色格子的贪婪策略应该是向上的呢(5.3 > 2.3)。另外虽然第一次策略评价得到的策略可能不包含向上的动作,(假设用s1表示上面的那个格子,s2表示左边的那个格子),如果在策略评价时发现V(s1) > V(s2),那么之后的策略也会让你走到s1去啊。
-
策略迭代
——来自《强化学习理论与实践- 第二期》·29浏览
@lvjdchn 是的呢