• 课程中心
  • 公开课
  • 面试题库
  • 企业服务
    • 企业内训
    • 企业招聘
  • 高校合作
  • 课程中心
  • 公开课
  • 面试题库
  • 企业服务
    • 企业内训
    • 企业招聘
  • 高校合作
    • 登录/注册
  • 登录/注册
    • 登录/注册
  • 登录 /注册
    • 课程中心
    • 公开课
    • 面试题库
    • 企业服务
      • 企业内训
      • 企业招聘
    • 高校合作

    陈达贵

    暂无个性签名

    清华大学自动化系控制理论研究所硕士生,主要研究方向是深度强化学习的理论和计算图形学,具有较丰富的深度学习和深度强化学习实践经验。 在人工智能竞赛ICDAR2015上获得第一名,实验室团队在强化学习人工智能竞赛上获得第三名。曾获得过RoboCup全国冠军,以及全国电子设计竞赛省一等奖。
    • 10
      粉丝
      关注 已关注
    • 0
      关注
    • Ta的课程
    • Ta的在教课程
    • Ta的课程
    • 课程讨论
    • Ta的话题
    • Ta的问答
    • Ta发布的
    • Ta参与的
    • 教材2.8:Gradient Bandit Algorithms中Preference的更新公式的理解

      ——来自《强化学习理论与实践- 第二期》·10浏览

      这个是根据求导出来的吧。用E(R)对H(a)求导,然后区分a是否是当前动作可以得到两个迭代式。

      注意E(R)可以写成与相关H(a)的表达式。

    • 第三次作业

      ——来自《强化学习理论与实践- 第二期》·17浏览

      同学你好:

      对所有状态的值函数的平均值画一条曲线。

    • 第二讲 编程题 最后一题有疑问

      ——来自《强化学习理论与实践- 第二期》·17浏览

      策略并不是一定要执行的,策略是一个表,存在agent内部,碰到了某一个状态再查这个表就行了。没碰到这个状态也没关系哈。

      具体的策略问题,可以参考回答:

      http://www.shenlanxueyuan.com/course/107/thread/160

    • 确定性策略

      ——来自《强化学习理论与实践- 第二期》·42浏览

    • 确定性策略

      ——来自《强化学习理论与实践- 第二期》·42浏览

      正如课件中所述,确定性策略的表达可以是一个向量。只有16种的原因是因为这样的向量只有16个

    • 确定性策略

      ——来自《强化学习理论与实践- 第二期》·42浏览

      @ccww 没有关系啊。策略并不是一定要执行的,策略是一个表,存在agent内部,碰到了某一个状态再查这个表就行了。

      状态不确定无所谓的,等到下一个时刻环境通过采样会给你返回一个状态,这个时候按照这个状态做动作即可。

    • Stochastic 和 deterministic

      ——来自《强化学习理论与实践- 第二期》·46浏览

      同学你好:

      强化学习中随机性有即可能指策略是随机的,也有可能指环境模型是随机的。一般来说,我们谈到随机的mdp,指的还是环境模型随机,即指状态转移是随机的。

      即你在状态s下,做了动作a,所能到达的后继状态s'是随机的。

    • Stochastic 和 deterministic

      ——来自《强化学习理论与实践- 第二期》·46浏览

      @zhr9651 很多情况下,状态转移都是不确定的。比如你跟别人下围棋,我们把对方视为环境,当你下了一个棋子之后,对方给的反馈就是随机的。你只能估计对方在某个地方落子的概率,而无法得到准确的值。

    • 关于DQOmemory问题

      ——来自《强化学习理论与实践- 第一期》·11浏览

      同学你好:

            这个倒不用。DQN中还是允许对memory重复采样的。

    • 策略梯度目标函数如何构建?

      ——来自《强化学习理论与实践- 第一期》·15浏览

      同学你好:

      这里的J是一个真实值,真是使用的时候可以用MC去估计,比如稳定一个策略不变不停地采样,然后计算平均回报值。

    • 关于策略改进的问题

      ——来自《强化学习理论与实践- 第一期》·18浏览

      同学你好: 

      动态规划的策略迭代中,是不需要探索的,原因是我们已知了状态转移概率。只有当使用样本备份时,才会需要探索,比如MC的方法以及时间差分的方法。

    • 关于第四节课“无模型方法--模特卡洛” 中算法2 算法3 W终止条件的一些疑问?

      ——来自《强化学习理论与实践- 第一期》·29浏览

      同学你好:

      首先非常抱歉,之前把你的问题看漏掉了,因此回复的时间较晚,望见谅。

      1. 算法2中,当pi(At|St)=0时,W就会等于0。这种情况下对应的在状态St下,如果使用策略pi,动作At永远不会执行,但是对于行为策略来说,是有可能执行的。

      2. 算法3中描述的事情和算法2类似,只是考虑到了pi是一个取max的确定性策略(贪婪的策略)如果At不是那个贪婪的动作,也就代表At在pi中永远不会被执行,即也就相当于W=0了

    深蓝学院是专注于前沿科技的教育平台,目前在人工智能、机器人与自动驾驶领域搭建了完善的课程体系,并在积极探索嵌入式、物联网、增强现实领域的教育模式。学院致力于为企业培养踏实上进的工匠型人才,也愿与企业共同探索人才教育方案。

    关于我们 版权声明 联系电话:010-86226736
    服务协议 反馈建议 联系邮箱:service@shenlanxueyuan.com
    友情链接:
    • 中科院自动化所
    • 中国科学院大学
    官方微信公众号
    扫码下载APP
    ©2025 深蓝学院

    课程内容版权均归 北京深蓝前沿科技有限公司所有

    京ICP备19029074号| 京公网安备 11011402010666号
    在线咨询
    常见问题
    证书查询
    返回顶部