• 课程中心
  • 公开课
  • 面试题库
  • 企业服务
    • 企业内训
    • 企业招聘
  • 高校合作
  • 课程中心
  • 公开课
  • 面试题库
  • 企业服务
    • 企业内训
    • 企业招聘
  • 高校合作
    • 登录/注册
  • 登录/注册
    • 登录/注册
  • 登录 /注册
    • 课程中心
    • 公开课
    • 面试题库
    • 企业服务
      • 企业内训
      • 企业招聘
    • 高校合作

    橘朵

    暂无个性签名

    暂无个人介绍
    • 0
      粉丝
      关注 已关注
    • 0
      关注
    • Ta的课程
    • Ta的课程
    • 课程讨论
    • Ta的话题
    • Ta的问答
    • Ta发布的
    • Ta参与的
    • 策略梯度中参数更新问题

      ——来自《强化学习理论与实践- 第一期》·32浏览

      @陈达贵 老师,公式里面的pi(theta)是指action的一个分布,还是算one-hot?

    • 策略梯度中参数更新问题

      ——来自《强化学习理论与实践- 第一期》·32浏览

      @陈达贵 老师,这是我从网上找的一个代码

      这里的损失函数有点看不明白是怎么回事,能讲讲嘛?谢谢啦

    • 策略梯度中参数更新问题

      ——来自《强化学习理论与实践- 第一期》·32浏览

      @陈达贵 不好意思啊老师,这里还是有点不太理解。您说公式里面的pi(theta)输出的是一个动作的概率分布。但是用onehot就挑出了一个呢?比如说动作=[p(A)=0.3,p(B)=0.7],也就是all_act_prob=[0.3 0.7],

      one_hot=[[1 0]T [0 1]T],one_hot是怎么挑选出pi在B处的输出概率的?

      PS:这里pycharm我想打断点查看self.all_act_prob,neg_log_prob的值总是查看不了,就像下图。可能是我方法不对,有没有什么方法能查找任何一个自己想看的值?麻烦老师!

    • 策略梯度中参数更新问题

      ——来自《强化学习理论与实践- 第一期》·32浏览

      @陈达贵 嗯嗯明白了,谢谢老师!

    • epsilon-greedy编程

      ——来自《强化学习理论与实践- 第一期》·20浏览

      @陈达贵 @陈达贵 明白点了。老师那下划线的句子的执行顺序是什么啊?从左往右还是从右往左?value_里存了四个值,执行if value_=np.max(value_)会报错啊

    • epsilon-greedy编程

      ——来自《强化学习理论与实践- 第一期》·20浏览

      @陈达贵 明白点了。老师那下划线的句子的执行顺序是什么啊?从左往右还是从右往左?value_里存了四个值,执行if value_=np.max(value_)会报错啊

    • epsilon-greedy编程

      ——来自《强化学习理论与实践- 第一期》·20浏览

      @陈达贵 明白了,谢谢老师!!

    • 求出各个状态的最优V函数后,如何得出最优策略?

      ——来自《强化学习理论与实践- 第一期》·28浏览

      @陈达贵 嗯嗯明白了,谢谢老师!

    深蓝学院是专注于前沿科技的教育平台,目前在人工智能、机器人与自动驾驶领域搭建了完善的课程体系,并在积极探索嵌入式、物联网、增强现实领域的教育模式。学院致力于为企业培养踏实上进的工匠型人才,也愿与企业共同探索人才教育方案。

    关于我们 版权声明 联系电话:010-86226736
    服务协议 反馈建议 联系邮箱:service@shenlanxueyuan.com
    友情链接:
    • 中科院自动化所
    • 中国科学院大学
    官方微信公众号
    扫码下载APP
    ©2025 深蓝学院

    课程内容版权均归 北京深蓝前沿科技有限公司所有

    京ICP备19029074号| 京公网安备 11011402010666号
    在线咨询
    常见问题
    证书查询
    返回顶部