-
学习时长
8周/建议每周至少6小时
-
答疑服务
专属微信答疑群/讲师助教均参与
-
作业批改
课程配有作业/助教1V1批改
-
课程有效期
一年/告别拖延,温故知新
为什么要学这门课程
很多人能跑通开源的四足机器人强化学习行走代码,却完全不懂其中的底层构建逻辑——如何构建URDF与动力学方程?关节摩擦/转子惯量如何辨识?域随机化如何设计?Sim-to-Real实机迁移的Gap如何破解?这些决定机器人在平地、斜坡、碎石、台阶等复杂地形稳定运行的核心工程细节,一直缺乏系统讲解,也是Robot Learning领域教学的空白地带。
为此,深蓝学院联合英国纽卡斯尔大学正教授、智身科技CTO潘为打造了《四足机器人:从动力学建模到强化学习》课程,以动力学建模为地基、强化学习部署为终点,依托MATRiX可微仿真平台,完整拆解URDF解析、浮动基座动力学、系统辨识、PPO策略训练、域随机化、摩擦前馈补偿、实机部署全流程,更结合IROS四足挑战赛冠军的实战经验,把从仿真到实机、从平地到越障的完整闭环讲透。
从此告别无头苍蝇式的玄学调参,每一个超参数的选取、每一次域随机化范围的设定都有物理依据,让调试从碰运气变为做推理。真正掌握四足机器人运动控制的物理本质与工程开发能力,从开源代码的使用者,成长为能自研底层代码、让机器狗在真实世界稳定行走的核心开发者。
课程定位
不是什么
-
不是一门RL理论课(不会花大量时间推导策略梯度定理)
-
不是一门机器人学导论(不会从零讲运动学链)
-
不是一门legged_gym / Isaac Gym代码教程(不绑定NVIDIA生态)
是什么
-
是一门教你理解四足机器人的物理本质,然后用RL控制它的工程实践课
-
每一步都在为下一步铺路:模型 → 辨识 → 仿真 → 训练 → 部署
-
全程基于MATRiX一站式平台(MuJoCo可微物理+UE5渲染+GPU并行,支持ZSL-1、Go2等多种型号四足机器人)
-
辨识、训练、视觉验证、部署在同一个平台闭环,学完即掌握完整工具链
讲师简介
潘 为
- Newcastle University自主系统与自动控制正教授(Full Professor)
- 智身科技CTO
- Imperial College London系统辨识方向博士
- 前TU Delft机器人动力学助理教授 / DJI项目负责人
- Robot Learning领域核心期刊/会议编委:IEEE RA-L Senior Editor(杰出AE奖)、ACM TOPML Senior Editor、IEEE T-RO / T-RL / T-ASE Associate Editor、ICRA / IROS / RSS / CoRL / L4DC Area Chair
- 发表NeurIPS、ICML、ICLR、T-RO、RAL、CoRL、ICRA、IROS、TAC、Automatica等顶会/期刊
- 2025 IROS四足机器人挑战赛冠军
课程大纲
- 第1章: 导论:四足控制的演进
- 第1节: 四足控制技术:有模型MPC vs 无模型RL
- 第2节: MPC 与 RL 的能力边界
- 第3节: 可微物理仿真引擎 MJX
- 第2章: 机器人建模:URDF与浮动基座动力学
- 第1节: 旋转表示与浮动基座坐标
- 第2节: 正向运动学与几何雅可比矩阵
- 第3节: 浮动基座刚体动力学
- 第4节: URDF 与 MJCF 字段解析
- 第5节: 本章小结
- 第6节: Project 1:仿真环境搭建与动力学验证
- 第3章: 模型精度与系统辨识
- 第1节: URDF 参数精度评估:206 个参数分类
- 第2节: 关节摩擦模型:库仑 + 粘性 + Stribeck
- 第3节: 折算转子惯量:KNEE 转子惯量是连杆的 100 倍
- 第4节: 经典辨识:单关节实验 → 回归 → 最小二乘
- 第5节: MATRiX 可微梯度辨识:jax.grad 直接求导
- 第4章: 强化学习与运动控制(上)
- 第1节: PPO 算法:截断比率的直觉
- 第2节: MATRiX GPU 并行训练:4096 环境 vs Isaac Gym
- 第3节: 观测空间设计:48 维向量每项物理含义
- 第4节: 奖励函数设计:速度跟踪 · 步态约束 · 能耗惩罚
- 第5节: Trot 步态约束实现与调参经验
- 第5章: 强化学习与运动控制(下)
- 第1节: Domain Randomization:参数分布上的期望优化
- 第2节: 辨识值 → DR 范围:有辨识 vs 无辨识效果对比
- 第3节: Curriculum Learning:5 阶段渐进训练
- 第4节: 地形生成:斜坡 · 碎石 · 台阶 · 随机凹凸
- 第5节: Project 2:行走策略训练与地形泛化
- 第6章: Sim-to-Real 迁移
- 第1节: Gap 系统性分解:6 个来源 × 严重度 × 解决方法
- 第2节: 摩擦前馈补偿:收益最大、成本最低的技术
- 第3节: 教师-学生蒸馏(RMA 范式):三步训练流程
- 第4节: PD 增益调优与实机安全流程
- 第5节: Project 3:策略部署与摩擦补偿
- 第7章: 感知导航与系统集成
- 第1节: 6 层分层架构:VLN → 导航 → RL → PD → 硬件
- 第2节: RoamerX 导航栈:LiDAR SLAM + 路径规划
- 第3节: 视觉语言导航(VLN):自然语言 → 运动指令
- 第4节: 高级运动技能:跳跃力矩估算与实现
- 第8章: 实机部署与案例分析
- 第1节: IROS 2025 四足挑战赛冠军案例详解
- 第2节: 赛场应急:“15 分钟重新训练”的工程实现
- 第3节: 前沿展望:四足→人形的技术迁移路径
- 第4节: 学员 Project 展示与点评
- 第5节: Project 4:完整四足自主系统(Final)
Project 1:仿真环境搭建与动力学验证
在MATRiX中加载ZSL-1,SDK遥控行走,计算质量矩阵M和重力向量g,验证零力矩时基座自由落体,可视化12个关节传感器数据。
Project 2:行走策略训练与地形泛化
设计奖励函数,PPO+MATRiX并行训练Trot步态,设置DR(基于第3章辨识值),在≥3种地形上评估泛化能力,对比有/无DR策略表现。
Project 3:策略部署与摩擦补偿
通过SDK底层接口部署策略,实现摩擦前馈补偿,对比三组实验:无补偿/摩擦补偿/补偿+DR,量化关节跟踪误差和跌倒率。
Project 4:完整四足自主系统(Final)
综合性Final Project,在MATRiX场景中整合RoamerX导航栈与RL运动策略,实现“目标点→自主导航→到达”完整闭环,含消融实验和失败分析。
课程收获
能读懂任意四足机器人的URDF,理解其动力学参数的物理含义
能用MATRiX可微仿真进行系统辨识(梯度下降拟合物理参数)
能用MATRiX GPU并行训练RL Locomotion策略(不依赖Isaac Gym)
能设计奖励函数、调Domain Randomization参数
能将策略部署到实机(或高保真仿真),理解并解决Sim-to-Real问题
能独立搭建“辨识 → 训练 → 验证 → 部署” 的完整Pipeline
这门课适合谁
机器人相关领域的高年级本科生和研究生
机器人算法工程师/自动驾驶或具身智能从业者
有强化学习基础、想进入机器人领域的算法工程师
参加RoboCup、IROS等机器人竞赛的学生
基础&设备要求
基础要求
必备:Python编程基础,线性代数和概率论基础
最好有:了解过RL基本概念(MDP、奖励、策略),接触过ROS
不需要:四足机器人经验,控制理论深度知识
设备要求
为兼顾更多硬件条件,设备要求分为「基础训练版」和「可视化渲染版」两种,可根据自身设备情况选择:
适用场景:仅模型训练、推理,无可视化渲染需求
优势:对算力/操作系统无限制
最低配置:
操作系统:Windows / macOS / Linux均可
显卡:无强制要求,CPU即可完成训练,无需NVIDIA独立显卡
CPU:Intel i5及以上
内存:8GB及以上(推荐16GB)
存储:256GB及以上
适用场景:需要可视化渲染、动态效果演示
优势:完整功能体验,更直观的视觉可视化
最低配置:
操作系统:Ubuntu 22.04
显卡:NVIDIA RTX 4060及以上,显卡驱动版本≥535
CPU:Intel i7及以上多核处理器
内存:16GB及以上(推荐32GB)
存储:512GB及以上
全方位的学习服务
个性化增值服务,学习有保障更高效
作业批改
助教1V1批改作业,定期针对作业中的“通病”进行点评
结业证书
本课程将根据作业完成情况评选结业学员及优秀学员,颁发证书
实时答疑
讲师和助教微信群答疑,及时解决大家遇到的问题
班班督学
班主任全程带班,不定时“关照”未交作业的同学,克服拖延
上课流程说明
进入答疑群,参加开课仪式
每周学习课程,完成作业
助教1V1批改作业、社群内讲评答疑
完成课程,领取证书
— 开启「四足机器人」的学习之旅吧 —
开启学习之旅吧
Q1
学习形式是什么样的?
A:为了保证学习效果,本门课程采取录播的形式,每周解锁一章。建议同学们登录深蓝学院PC端官网,体验更佳!
Q2
课程有有效期吗?
A:为了督促同学们学习,保证学习效率,学院的课程有效期均为一年,当课程有效期截止后将不再支持观看视频、下载课件等课程服务及操作。若同学们依旧想观看视频和下载课件,建议可选择续费本课程。需要提醒大家的是,课程答疑、作业批改&讲评等课程相关服务仅限开课仪式至结课仪式期间。
Q3
作业会提供参考答案吗?
A:课程不提供参考答案。每章作业截止提交后,会组织作业讲解。我们倾向于引导大家培养独立思考的习惯与敢于动手实践的勇气,以便于更快适应实际工作中解决问题的模式。做作业过程中,如果有任何困惑和问题,可以在答疑群中提问解决。
Q4
如果不满意,可以退款吗?
A:我们承诺:开班后7天内可以无条件全额退款。课好不好,学了就知道了!
更多信息,请添加客服咨询
添加时请备注关键词『四足』
