- 学习人数
- 课程满意度
- 8
- 承诺服务
五月末的人机大战让世人大开眼界,顶级围棋手柯洁落下的眼泪、微博的叹息,都是对AlphaGo这颗强劲“大脑”的赞叹。然而,让人工智能走出娱乐和游戏,真正进入人类的实际生活,通过实现机器人的自主运动来为人类提供服务同样是我们长久以来的梦想。
但是,机器人的自主运动该如何实现?随着深度学习部分解决了机器人的视听识别问题,强化学习(又称“增强学习”)技术有望成为突破机器人自主运动难题的一把利剑。强化学习实际上是“试错法”这一在生活中广泛使用的技巧的理论抽象,即为了达到理想目标而不断试验,并在实际尝试中修正方案,从而逐步提高成功率。
在2017年《麻省理工科技评论》全球十大突破性技术榜单中,强化学习技术高居榜首,并已在棋类运动和电脑游戏领域获得突破性进展,如AlphaGo使用强化学习技术击败世界围棋冠军柯洁,基于强化学习的电脑程序在一系列Atari游戏中超过人类水平等。
那么,强化学习是什么,它的工作机制是什么样子的呢?这门课程我们会慢慢跟大家讲解。
课程目录
1. 强化学习概述
1.1 强化学习是什么
1.2 强化学习常见问题
1.3 探索与利用
1.4 强化学习模型分类
2. 有模型学习
2.1 马尔可夫过程
2.2 马尔可夫决策过程
2.3 策略评估
2.4 策略改进
2.5 策略迭代与值迭代
3. 免模型学习
3.1 蒙特卡罗强化学习(序列)
3.2 时序差分学习(从批处理增量式)
3.3 Sarsa算法
3.4 Q-Learning算法
4. 值函数近似与深度Q网络(DQN)算法
4.1 值函数近似
4.2 深度学习简介
4.3 DQN模型
5. 策略梯度
5.1 基于值函数与基于策略的强化学习
5.2 策略梯度算法
5.3 角色评论算法
参考书籍:周志华老师的《机器学习》