• 课程中心
  • 公开课
  • 面试题库
  • 企业服务
    • 企业内训
    • 企业招聘
  • 高校合作
  • 课程中心
  • 公开课
  • 面试题库
  • 企业服务
    • 企业内训
    • 企业招聘
  • 高校合作
    • 登录/注册
  • 登录/注册
    • 登录/注册
  • 登录 /注册
    • 课程中心
    • 公开课
    • 面试题库
    • 企业服务
      • 企业内训
      • 企业招聘
    • 高校合作

    陈达贵

    暂无个性签名

    清华大学自动化系控制理论研究所硕士生,主要研究方向是深度强化学习的理论和计算图形学,具有较丰富的深度学习和深度强化学习实践经验。 在人工智能竞赛ICDAR2015上获得第一名,实验室团队在强化学习人工智能竞赛上获得第三名。曾获得过RoboCup全国冠军,以及全国电子设计竞赛省一等奖。
    • 10
      粉丝
      关注 已关注
    • 0
      关注
    • Ta的课程
    • Ta的在教课程
    • Ta的课程
    • 课程讨论
    • Ta的话题
    • Ta的问答
    • Ta发布的
    • Ta参与的
    • 动态规划中贝尔曼期望方程迭代式策略评价的公式下标疑问

      ——来自《强化学习理论与实践- 第一期》·7浏览

      同学你好:

      这里的k表示迭代步数。用之前第k步的值函数更新第k+1步的值函数

    • 关于第四节作业一些疑问

      ——来自《强化学习理论与实践- 第一期》·60浏览

      同学你好:

      你要结合MC的问题去思考,MC本质上是利用了统计平均值去估计真实期望值.

      每个Xn代表回报值。回报值是一个随机变量,我们用Xn的平均值来估计Xn的真实期望值。

      每做一次实验,得到的Xn都是独立同分布的,假设Xn是均值为u, 方差为q的随机变量。

      这个作业的目的是,让你求的方差和N之间的关系

    • 关于第四节作业一些疑问

      ——来自《强化学习理论与实践- 第一期》·60浏览

      @linjianbing 其实这个解答很简单,主要考察的是大家能不能把平时学到的知识用起来。同学你可能想得复杂了

      因为Xn都是来自均值为u,方差为q的分布,且相互独立。

      所以


      其中第三个等号,利用了每次采样都是独立的。这样就可以得到MC估计的方差随着N的增大,成反比例减少的关系了

    • 神经网络的权重在扰动消失前后是否会收敛到同一个值?求大佬解答!感激不尽

      ——来自《强化学习理论与实践- 第一期》·10浏览

      同学你好:

      神经网络一个著名的特点就是局部最优,扰动之后,不能保证收敛到原来的值。

    • 关于前向视角和后向视角下的误差等价公式推导的疑问

      ——来自《强化学习理论与实践- 第一期》·11浏览

      同学你好:

      最后一项是终止状态,终止状态的值函数我们一般是预定义好的,比如等于0

    • TD(λ)的前向视角为什么只能从完整的片段学习?

      ——来自《强化学习理论与实践- 第一期》·19浏览

      同学你好:

      1. TD(lambda)和n步TD是不同的哈。n步TD看n步就行了,TD(lambda)中包含了MC项,所以必须要完整片段。

      2. 在线更新指一遍跟环境交互,一遍更新。有时候不一定是每步的,比如每2步,每3步等。

    • 关于资格迹的问题

      ——来自《强化学习理论与实践- 第一期》·10浏览

      同学你好:

      因为那个是“终止状态”的值函数,一般定义为0

    • 第五章TD作业1中的BUG问题

      ——来自《强化学习理论与实践- 第一期》·35浏览

      同学你好:

      呃呃,应该是我在作业里忘记写一句话了:

      我把V(右边停止状态)设为1的原因,是为了简化大家的计算,因为V(右边停止状态)= 1的话,我们可以把所有的r都看成0。这是一个trick。作业里没这么写,确实容易引起误解,抱歉哈。

       

    • 关于蒙特卡罗优化算法每次访问的问题

      ——来自《强化学习理论与实践- 第一期》·16浏览

      同学你好:

      每次遇到动作对<s,a>就+1。它本质上是统计<s, a>出现过多少次

    • 第五课时间差分方法,为什么对Q函数的离策略学习不需要重要性采样率?

      ——来自《强化学习理论与实践- 第一期》·20浏览

      同学你好:

            并不是说Q和策略没关系了。Q和策略是有关系的。按照Q的定义,在状态S下做动作A,然后再按照策略π获得的期望回报值。因此Q的值跟策略是相关的。

            那为什么这里Q学习的重要性采样率和策略无关了呢?

            原因在于TD算法中,我们学习Q时,只采样了单步的S和A。而根据Q的定义,Q跟策略的关系是存在于做完A之后。而重要性采样率是作用在采样S和A的时候。因此这里的重要性采样率和策略无关。

            并不是学习Q函数就不要重要性采样,比如利用MC学习Q函数是需要重要性采样的。

            另外:“Q学习”是一个专有算法,并不是指学习Q函数的意思,它特指利用TD(0)算法,求解最优Q函数的算法。

    • 关于第四讲课后编程题,采样轨迹的终止条件

      ——来自《强化学习理论与实践- 第一期》·49浏览

      同学你好:

             你这个问题提的很好。确实是我疏忽大意。当时设计这个作业,主要是有两方面的考虑:

             1. 重复利用上节课的环境,减少环境的编程量。

             2. 可以与动态规划的算法作为一个比较。

             有一种MC方法是可以不用完整轨迹的。但是这种方法在第6章,讲资格迹的时候才会提及,而且也不是本节课的要求。因此这里确实是我欠考虑了。

             不过,停止条件有很多设置的方法,当衰减系数小于1时,可以设置一定的步数之后,自动结束片段。因为衰减系数的作用是指数形式,等一定的步数之后,对值函数的贡献是可以忽略不计的了。比如这里可以设置T=30

       

    • 关于第四讲课后编程题,采样轨迹的终止条件

      ——来自《强化学习理论与实践- 第一期》·49浏览

      @EminemWeng 

      这里的gamma

    • epsilon-greedy编程

      ——来自《强化学习理论与实践- 第一期》·20浏览

      同学:

      主要原因是,有可能有几个动作都能导致最大的Q值。比如Q(s, a1) = 0, Q(s, a2)= 1, Q(s, a3) = 1, 这里a2, a3都能导致最大的Q值,这句话的意思就是会在a2,a3中随机选择

    • epsilon-greedy编程

      ——来自《强化学习理论与实践- 第一期》·20浏览

      @橘朵 同学你好,这个是python中独有的列表生成式,专门用来构造列表,是一种效率较高的简易写法。

      即:

       

      a = []

      for action_, value_ in enumerate(values):

              if value_ == np.max(values):

                       a.append(value_)

      currentAction =  np.random.choice(a)  

       

      python中还有很多这种写法,除了构造列表外,还能构造字典等。

    • 关于动态规划值迭代的问题

      ——来自《强化学习理论与实践- 第一期》·29浏览

      同学你好:

         很抱歉,我不是特别理解你说的是哪一幅图,能把你所说的图贴一下吗?也方面其他同学逛到这个问题时,能够直接理解你的问题,而不用去查阅ppt。

    • 关于动态规划值迭代的问题

      ——来自《强化学习理论与实践- 第一期》·29浏览

      @Albert 值迭代指的是利用上一次迭代的值函数,第二幅图迭代时是利用了第一幅图的值函数。因为第一幅图中的值函数都是0,所以第二幅图的结果基本都是-1,只有靠近重点的两个状态不同。

      你所想的距离越远,值函数越小,是最终收敛后的结果,中间迭代过程并不是这样哦。

    • 关于重要性采样与离策略MC策略评价的提问

      ——来自《强化学习理论与实践- 第一期》·35浏览

      同学你好:

      1. 我们定义轨迹S1, A1, S2, A2,...,每条轨迹出现的概率会随着策略的不同而不同。在强化学习中,我们评价的策略是π,但是真正去采样的策略是u,因此重要性采样率就是策略为u的情况下轨迹出现的概率和策略为π下,轨迹出现的概率的比值

      2. π并不是无法直接采样的,而是因为很多时候为了更多的探索,我们需要使用另一个策略去采样。比如,当我们想要得到一个确定性最优策略π时,如果直接用π去采样,会导致每个状态s下都会对应到唯一的动作a,而我们需要考察一下其他的a好不好,因此会使用一个探索性更强的策略去采样

      3. 从后往前计算,是为了减少计算量。比如轨迹S1, A1, S2, A2, S3, ....,我们可以先算出S3处的回报值G3,用G3可以更新S3的值函数。然后计算G2时,可以利用G2=R3+yG3。如果从前往后算,复杂度会高些

    • 关于重要性采样与离策略MC策略评价的提问

      ——来自《强化学习理论与实践- 第一期》·35浏览

      @helloa 不会出现这样的情况的。

      第一:重要性采样因子是以μ为分母的

      第二:目标策略π不为0时,μ中的策略肯定也不为0

       

    • 关于最优值函数与最优Q函数问题

      ——来自《强化学习理论与实践- 第一期》·26浏览

      同学你好:

      1. 最优Q函数也是最优值函数的一种,最优值函数就包括了最优V函数和最优Q函数

      2. 最优策略可能有很多,所以永远不能说明最优策略相同。比如如果Q(s,a1) = Q(s, a2) = max Q(s, .) , 即最优策略有可能选a1,也有可能选a2

      3. 最优V函数和最优Q函数都是唯一的,也就是说最优值函数和最优策略是一对多的关系

    • 关于最优值函数与最优Q函数问题

      ——来自《强化学习理论与实践- 第一期》·26浏览

      @linjianbing 最优V函数和最优Q函数是一一对应的,参考贝尔曼最优方程,两者之间有着唯一确定的关系。

    • 首页
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 尾页

    深蓝学院是专注于前沿科技的教育平台,目前在人工智能、机器人与自动驾驶领域搭建了完善的课程体系,并在积极探索嵌入式、物联网、增强现实领域的教育模式。学院致力于为企业培养踏实上进的工匠型人才,也愿与企业共同探索人才教育方案。

    关于我们 版权声明 联系电话:010-86226736
    服务协议 反馈建议 联系邮箱:service@shenlanxueyuan.com
    友情链接:
    • 中科院自动化所
    • 中国科学院大学
    官方微信公众号
    扫码下载APP
    ©2025 深蓝学院

    课程内容版权均归 北京深蓝前沿科技有限公司所有

    京ICP备19029074号| 京公网安备 11011402010666号
    在线咨询
    常见问题
    证书查询
    返回顶部