2018年5月31日-6月1日,由中国自动化学会主办,深蓝学院承办的“深度与宽度强化学习”学科前沿讲习班在北京成功举办。此次讲习班由中国自动化学会副理事长、澳门大学讲座教授陈俊龙和清华大学教授宋士吉共同担任学术主任,自发布通知日起,受到了相关领域全国各高校、企业的极大关注和踊跃报名,会议前两天报名人数已达上限,达到讲习班报名人数最高记录,共200余位来自全国各高校、研究院所及企事业单位的参会代表参加了此次会议。

讲习班开始由陈俊龙教授进行致辞,陈俊龙教授首先对学会的历史沿革和发展现状进行了简要的介绍,并介绍了深度与宽度强化学习发展及应用,在致辞最后陈俊龙教授表示衷心希望参加此次讲习班的学员可以有所得、有所获。

陈俊龙教授首先为大家带来题为“从深度强化学习到宽度强化学习:结构,算法,机遇及挑战”的报告,陈俊龙教授的报告主要讨论强化学习的结构及理论,包括马尔科夫决策过程、强化学习的数学表达式、策略的构建、估计及预测未来的回报,同时也在报告中讨论如何用深度神经网络学习来稳定学习过程及特征提取、如何利用宽度学习结构跟强化学习结合。报告的最后陈教授指出了深度、宽度强化学习带来的机遇与挑战。

 随后为大家带来报告的是清华大学宋士吉教授,宋教授的报告题目为“基于强化学习的深海机器人智能搜索与运动控制方法”,报告阐述了强化学习在深海机器人智能搜索与运动控制领域的算法研究及其应用,从热液羽状流智能搜索与深海机器人运动控制两个方面开展工作。在热液羽状流智能搜索方面,研究基于强化学习和递归网络的羽状流追踪算法。利用传感器采集到的流场与热液信号信息,将机器人搜索热液喷口的过程建模为状态行为域连续的马尔科夫决策过程,通过强化学习算法得到机器人艏向的最优控制策略。在深海机器人运动控制方面,研究基于强化学习的轨迹跟踪与最优深度控制算法。在机器人系统模型未知的情况下,将控制问题建模成连续状态动作空间的马尔可夫决策过程,并构建评价网络与策略网络,通过确定性策略和神经网络学习得到最优控制策略。

  第一天下午第一个为大家带来报告的是北京交通大学侯忠生教授,侯教授为大家带来的报告题目为“数据驱动的自适应学习控制”。报告主要分为四部分内容,侯教授首先介绍了迭代轴上的学习控制和时间轴上的学习控制(即无模型自适应控制),之后主要介绍了学习控制的统一框架及主要结论。

随后由清华大学季向阳教授带来题为“强化学习及智能控制与决策”的报告,季教授的报告主要介绍科研工作中与强化学习相关的工作,包括面向多智能体控制等的智能控制方法与决策等。

第一天的最后一个报告为西安交通大学陈霸东教授带来的“核自适应滤波与宽度学习”。核自适应滤波器(Kernel Adaptive Filters)是近年来兴起的在可再生核希尔伯特空间(RKHS)中实现的一类非线性自适应滤波器,其拓扑结构为线性增长的单隐层神经元网络。其基本思想是:首先,将输入信号映射到高维核空间;然后,在核空间中推导线性滤波算法;最后,利用核技巧(Kernel Trick)得到原信号空间中非线性滤波算法。与传统非线性滤波器比较,核自适应滤波器具有以下优点:(a)如果选取严格正定的Mercer核函数,具有万能逼近能力;(b)性能曲面在高维核空间中具有凸性,因此理论上不具局部极值;(c)隐节点由数据驱动生成,减少了人工参与;(d)具有自正则性(Self-regularization),可有效防止过拟合。因此,核自适应滤波概念提出以后引起了国内外研究者广泛兴趣,越来越多的相关算法被提出,并被应用到诸多领域。核自适应滤波与最近兴起的宽度学习(Broad Learning)关系密切,可以认为是一类基于核方法的宽度学习算法。陈教授的报告深入系统地阐述了核自适应滤波的基本思想、主要算法、性能分析、典型应用,以及如何将其与宽度学习纳入统一框架。

第二天首先为大家带来报告的是中车株洲电力机车有限公司杨颖工程师,杨颖工程师的报告题目为“轨道交通车辆预测与健康管理(PHM)技术应用”。报告首先对智慧列车进行了简要介绍,其次介绍了智慧列车总体方案及智慧列车PHM方案,报告的最后一部分杨颖工程师结合应用实例介绍了基于PHM 的运维方案。

中国科学院自动化研究所赵冬斌研究员为大家带来题为“深度强化学习算法及应用”的报告。将具有“决策”能力的强化学习和具有“感知”能力的深度学习相结合,形成深度强化学习方法,成为人工智能的主要方法之一。2013年,谷歌DeepMind团队提出了一类DRL方法,在视频游戏上的效果接近或超过人类游戏玩家,成果发表在2015年的《Nature》上。2016年,相继发表了所开发的基于DRL的围棋算法AlphaGo,以4:1战胜了世界围棋冠军和超一流围棋选手李世石,使围棋AI水平达到了一个前所未有的高度。2017年初,AlphaGo的升级程序Master,与60名人类顶级围棋选手比赛获得不败的战绩。2017年10月,DeepMind团队提出了AlphaGo Zero,完全不用人类围棋棋谱而完胜最高水平的AlphaGo,再次刷新了人们的认识。并进一步形成通用的Alpha Zero算法,超过最顶级的国际象棋和日本将棋AI。DRL在视频游戏、棋类博弈、自动驾驶、医疗等领域的应用日益增多。赵冬斌研究员的报告介绍了强化学习、深度学习和深度强化学习算法,以及在各个领域的典型应用。

 下午第一个为大家带来报告的是浙江大学刘勇教授,刘勇教授的报告题目为“正则化深度学习及其在机器人环境感知中的应用”。近年来,随着人工智能技术的飞速发展,深度神经网络技术在图像分析、语音识别、自然语言理解等难点问题中都取得了十分显著的应用成果。然而该技术在机器人感知领域的应用相对而言仍然不够成熟,主要源于深度学习往往需要大量的训练样本来避免过拟合、提升泛化能力,从而降低其在测试样本上的泛化误差,而机器人环境感知中涉及的任务与环境具有多样化特性,且严重依赖于机器人硬件平台,因而难以针对机器人各感知任务提供大量标注样本;其次,对于解不唯一的病态问题,即使提供大量的训练数据,深度学习方法也难以在测试数据上提供理想的估计,而机器人感知任务中所涉及的距离估计、模型重构等问题就是典型的病态问题,其输入中没有包含对应到唯一输出的足够信息。针对上述问题,刘勇教授的报告以提升深度学习泛化能力为目标、以嵌入先验知识的正则化方法为手段、以机器人环境感知为应用背景进行了详细介绍。

下午第二个为大家带来报告的是清华大学副教授游科友,报告题目为“分布式优化算法与学习”。随着训练参数与样本规模的急激增长,深度学习在实际应用系统中显示出巨大的应用前景。分布式与并行优化是指通过多求解器来协作求解的一类优化问题,其在大规模数值计算、机器学习、资源分配、传感器网络等有重要的研究意义和应用价值,并成为了大规模优化与学习中最具挑战性的问题之一。报告首先讨论了分布式优化的几个典型难点问题,其次以鲁棒凸优化为例,提出了分布式原-对偶求解算法与分布式Polyak算法,并严格证明了算法的有效性。

最后由国防科技大学徐昕教授带来题为“自评价学习控制中的特征表示与滚动优化”的报告。徐昕教授的报告首先介绍了RL的自评价学习控制架构和自评价学习控制的特征表示,其次介绍了基于滚动优化的自评价学习控制,在报告最后徐昕教授结合实际应用介绍了智能车辆的自评价学习控制。