- 第1章: 概述
- 1:强化学习2第1讲
- 第2章: 马尔可夫决策过程
- 2:强化学习2.1
- 3:强化学习2.2
- 第3章: 动态规划
- 4:强化学习2第3节
- 第4章: 无模型方法1:蒙特卡洛
- 5:RL升级版I第四节 蒙特卡洛
- 第5章: 无模型方法2:时间差分
- 6:强化学习2 无模型方法二:时间差分
- 第6章: 无模型方法3:多步自举
- 7:强化学习升级版I第六章
- 第7章: 函数逼近与深度神经网络
- 8:强化学习2 函数近似与深度网络
- 第8章: 策略梯度算法
- 9:强化学习2 策略梯度算法
- 第9章: 深度强化学习
- 10:强化学习9.1
- 11:强化学习9.2
- 第10章: 基于模型的强化学习
- 12:强化学习2 基于模型的强化学习
- 第11章: 前沿与展望
- 13:RL升级版I-强化学习前沿