强化学习理论与实践(升级版 I)
  • 学习有效期
  • 学习人数
  • 永久有效
  • 105
  • 承诺服务
  • 课程满意度
课程价格 ¥599.00

VIP专享价

0.00

开通会员享限时特惠 >>
课程介绍

强化学习是机器学习最热门的研究方向之一,主要用于研究智能体的序列决策问题。强化学习的主要思想是智能体不断地与环境进行交互,并通过反复试错来提高其智能水平,这一点跟人类的学习过程有很大的相似性,因此强化学习被认为是迈向通用人工智能的重要途径。

随着数据处理能力的逐步提升以及深度学习的发展,强化学习解决复杂问题的能力也得到了较大的提高,在机器人控制、游戏、自然语言处理、推荐、金融均取得了一定成果,甚至在一些特定场景下超过了人类(AlphaGo等)。

目前,强化学习的中文资料较少,入门难度较大,学习过程中如果得到了指导,过程会比较吃力。深蓝学院打磨推出『强化学习理论与实践』在线课程,第一期课程受到大家普遍好评。升级版 I 在第一期的基础上,优化了深度强化学习应用的内容,并且增加了编程实践。

 

课程团队

陈达贵,算法工程师,清华大学自动化系硕士,主要研究方向是深度强化学习的理论和计算图形学,在FPS游戏Visual Doom人工智能竞赛取得前三名。曾在阿里巴巴从事将强化学习具体落地的探索和实践项目,具有丰富的深度强化学习实践经验。其主讲的第一期强化学习理论与实践课程,受到普遍欢迎。

 

课程内容

第1章 概述

1.1 强化学习问题

1.2 强化学习的组成

1.3 智能体的组成

1.4 强化学习的分类

1.5 强化学习中的关键概念

1.6 编程实践:环境和随机策略

第2章 马尔可夫决策过程

2.1 马尔可夫过程

2.2 马尔可夫奖励过程

2.3 有限马尔可夫决策过程

2.4 马尔可夫决策过程的引申

2.5 编程实践:马尔可夫决策过程

第3章 动态规划

3.1 动态规划简介

3.2 策略评价

3.3 策略提升

3.4 策略迭代

3.5 值迭代

3.6 动态规划引申

3.7 编程实践:在Gridworld上的策略迭代和值迭代

第4章 无模型方法一:蒙特卡洛

4.1 无模型方法简介

4.2 On-policy和Off-policy

4.3 蒙特卡洛方法简介

4.4 蒙特卡洛评价

4.5 蒙特卡洛优化

4.6 增量算法

4.7 编程实践:蒙特卡洛方法

第5章 无模型方法二:时间差分

5.1 时间差分简介

5.2 时间差分评价

5.3 SARSA

5.4 Q学习

5.5 编程实践:TD算法

第6章 无模型方法三:多步自举

6.1 多步自举简介

6.2 TD(lambda)

6.3 SARSA(lambda)

6.4 off-policy下的多步自举

6.5 编程实践:n-step TD

第7章 函数近似与深度网络

7.1 函数近似

7.2 梯度下降算法

7.3 深度学习基础

7.4 编程实践:深度学习框架

第8章 策略梯度算法

8.1 策略梯度简介

8.2 策略梯度定理

8.3 REINFORCE规则

8.4 Actor-Critic算法

8.5 TRPO算法

8.6 编程实践:AC算法

第9章 深度强化学习

9.1 DQN

9.2 A3C

9.3 DDPG

9.4 PPO

9.5 编程实践:Atari游戏

第10章 基于模型的强化学习

10.1 基于模型的强化学习简介

10.2 基于模型的规划

10.3 Dyna算法

10.4 基于仿真的搜索

第11章 前景与大作业

11.1 探索和利用        

11.2 基于模型的强化学习方法

11.3 分层强化学习      

11.4 反强化学习和示范学习

11.5 多智能体强化学习  

11.6 记忆和注意力机制

11.7 元学习

11.8 Project大作业

 

往期结课后的评价

课程目标及报名

本课程主要面向初学者,讲述强化学习的基础理论,介绍强化学习的基本应用,给学员建立系统的强化学习理论体系。同时,本课程会带领学员了解其相关的最新技术,解决复杂环境下的强化学习问题。

课程前100名可领取100元早鸟优惠码,添加助教书哲微信(shenlanflying),咨询课程详情。

 

作业提交及优秀学员

授课教师

关于课程

开课时间

2018年12月7日-2019年2月15日,每周五晚上7点-9点进行授课。

 

学习方式

1、课程的课件、代码及其它学习资料在每周开课前更新,便于课前预习;课程视频将于每周五晚 7 点更新,可永久回放; 

2、每一讲均布置作业,由讲师和助教批改并公布作业完成情况;

3、报名课程后将加入微信答疑群,与讲师直接沟通,实时答疑;

4、如需缓存视频,可下载深蓝学院安卓版APP或IOS版APP;

5、请同学们留出 4 个小时左右的时间用于课程习题,以更好的吸收课程知识。

 

先修课程

先修课程:高等数学、线性代数、概率论、Python

参考书籍:Reinforcement Learning: An Introduction,Sutton and Barto, 1998
或者Algorithms for Reinforcement Learning, Szepesvari

推荐课程

  • 暂无推荐课程