-
老师,我想问一下关于环境模型的问题
——来自《强化学习理论与实践- 第一期》·32浏览
@wh1016430417 一般意义上是的。不过有时如果我们没有精确的环境模型,使用数据学习一个近似的模型,也可以称为环境模型。
强化学习中的无模型算法指的是不用模型的算法。只要利用到了状态转移函数和奖励函数,不管是精确的还是不精确的都可以被认为是基于模型的算法
-
迷宫例子的迷宫模型问题。
——来自《强化学习理论与实践- 第一期》·26浏览
这个左下角也是有的,只是这里没画出来,很抱歉给你造成误解了
-
关于观测
——来自《强化学习理论与实践- 第一期》·21浏览
环境状态对我们智能体的决策来说是不知道的。但是它本身是存在的,我们虽然不能直接利用,但是可以把它当成隐变量处理。比如我们可以通过神经网络等学习对环境状态的估计,帮助我们在部分观测下的决策过程。
最简单的例子就是走迷宫,假设迷宫的布局就是环境状态,如果我们是走一个2D迷宫,即我们能看到整个布局图,那么就是全观测的。在这种情况下,我们可以直接根据地图迅速求出最优解。
但是如果是3D迷宫,我们只能看到自己的前后左右,在这里我们的问题会变得很难。首先我们可能需要估计自己大概在什么位置,然后可能还要记住之前自己走过哪些地方,还要尝试哪条路能不能走等等。所以部分观测的问题和全观测的问题是两个维度的问题,部分观测的问题要难的多。
还有个例子,跟别人斗地主,明牌打(全观测)和不明牌打(部分观测)。同学可以自行体会两者的区别。
强化学习的理论基础大部分都是基于全观测的,部分观测如果你感兴趣的话,可以查阅POMDP的相关材料。
-
关于值函数的问题
——来自《强化学习理论与实践- 第一期》·32浏览
同学你好,策略是由一系列的动作构成。
值函数描述的是的是在某个状态下,做出某个动作的期望回报值。对应策略的原因是,因为我们做出动作之后,后面还有一系列的决策,后面的决策的动作分布是从策略采样出来的。
我举这样一个例子:同样是打游戏,有两个策略一个是乱打,一个是专家的策略。那么对于相同的状态,获得的期望回报值也不一样不是吗?
具体的有关值函数和策略的关系会在下一节课详述
-
监督学习与赌博机关系问题
——来自《强化学习理论与实践- 第一期》·52浏览
同学你好,
很抱歉我这里描述不太准确造成了你的误解。我这里所说的优化跟你说的优化不太一样。从你的角度来说,任何学习问题都是优化问题。你所站的角度是损失函数的角度,任何机器学习问题都是认为是优化损失函数。
我这里所说的优化是对天花板的优化,对于监督学习的来说,天花板是知道的(比如分类问题,天花板就是全部分对),但是对于奖励问题来说,在解决问题之前,我们作为人可能也不知道天花板是什么?(最大能获得多少奖励?)。
所以这里提的优化是指这一方面。
确实是我的不对,描述不清,造成了误解。可能换个词比较好。造成了大家的误解,深感抱歉
-
监督学习与赌博机关系问题
——来自《强化学习理论与实践- 第一期》·52浏览
@linjianbing 同学,你好。分类问题是已知天花板,但是需要解决如何到达天花板的问题(当然这里没有考虑泛化等性能)。而赌博机问题的关键是不已知天花板,需要自行探索天花板在哪里。
我举个例子:
比如你作为一个老师,教学生做题,学生如果做错了,你告诉他哪里错了,并且标准答案是什么。学生要解决的问题是如果自己做出标准答案。——这就是监督学习问题
而如果你不告诉学生标准答案,每次学生做完,你只给个分。学生需要自己思考怎么获得更高的分,最高分应该是多少?——这就是单步的强化学习问题
这两者的区别就是标签和奖励的区别。
-
关于强化学习和GA的联系和区别
——来自《强化学习理论与实践- 第一期》·86浏览
1. 参数分两种,一种是普通可学习的参数,另外一种是超参数(比如结构,层数等),我所说的强化学习优化神经网络指的是优化超参数,替代人工调结构或层数的过程。
2.遗传算法是一种优化算法,与之对应的是梯度下降法,牛顿法等,强化学习属于一类问题,与之对应的是监督学习,非监督学习等。这两者是在不同的维度上的。强化学习的问题也可以通过遗传算法去解,目前也有很多用遗传算法去解决强化学习的工作。
3.是不是赌博机问题,在于它有没有考虑状态转移。这个优化神经网络的工作具体有没有考虑状态转移要视情况而定,这个工作我没有细看,可能没法给出具体的回答。同学感兴趣的话,可以去参考google的文章,好像2018 CVPR有一篇Oral也是相关工作
-
关于强化学习和GA的联系和区别
——来自《强化学习理论与实践- 第一期》·86浏览
@lwhzzmd Practical Block-wise Neural Network Architecture Generation 可以看一下这篇文章CVPR2018,这是这个方向比较新的工作,也有对之前工作的引用