• 学习时长

    8周/建议每周至少6小时

  • 答疑服务

    专属微信答疑群/讲师助教均参与

  • 作业批改

    课程配有作业/助教1V1批改

  • 课程有效期

    一年/告别拖延,温故知新

为什么要学这门课程
很多人能跑通开源的四足机器人强化学习行走代码,却完全不懂其中的底层构建逻辑——如何构建URDF与动力学方程?关节摩擦/转子惯量如何辨识?域随机化如何设计?Sim-to-Real实机迁移的Gap如何破解?这些决定机器人在平地、斜坡、碎石、台阶等复杂地形稳定运行的核心工程细节,一直缺乏系统讲解,也是Robot Learning领域教学的空白地带。
为此,深蓝学院联合英国纽卡斯尔大学正教授、智身科技CTO潘为打造了《四足机器人:从动力学建模到强化学习》课程,以动力学建模为地基、强化学习部署为终点,依托MATRiX可微仿真平台,完整拆解URDF解析、浮动基座动力学、系统辨识、PPO策略训练、域随机化、摩擦前馈补偿、实机部署全流程,更结合IROS四足挑战赛冠军的实战经验,把从仿真到实机、从平地到越障的完整闭环讲透。
从此告别无头苍蝇式的玄学调参,每一个超参数的选取、每一次域随机化范围的设定都有物理依据,让调试从碰运气变为做推理。真正掌握四足机器人运动控制的物理本质与工程开发能力,从开源代码的使用者,成长为能自研底层代码、让机器狗在真实世界稳定行走的核心开发者。
课程定位
不是什么
  • 不是一门RL理论课
    (不会花大量时间推导策略梯度定理)
  • 不是一门机器人学导论
    (不会从零讲运动学链)
  • 不是一门legged_gym / Isaac Gym代码教程
    (不绑定NVIDIA生态)
是什么
  • 是一门教你理解四足机器人的物理本质,然后用RL控制它的工程实践课
  • 每一步都在为下一步铺路:模型 → 辨识 → 仿真 → 训练 → 部署
  • 全程基于MATRiX一站式平台(MuJoCo可微物理+UE5渲染+GPU并行,支持ZSL-1、Go2等多种型号四足机器人)
  • 辨识、训练、视觉验证、部署在同一个平台闭环,学完即掌握完整工具链
讲师简介
潘 为
英国纽卡斯尔大学正教授,智身科技CTO
  • Newcastle University自主系统与自动控制正教授(Full Professor)
  • 智身科技CTO
  • Imperial College London系统辨识方向博士
  • 前TU Delft机器人动力学助理教授 / DJI项目负责人
  • Robot Learning领域核心期刊/会议编委:IEEE RA-L Senior Editor(杰出AE奖)、ACM TOPML Senior Editor、IEEE T-RO / T-RL / T-ASE Associate Editor、ICRA / IROS / RSS / CoRL / L4DC Area Chair
  • 发表NeurIPS、ICML、ICLR、T-RO、RAL、CoRL、ICRA、IROS、TAC、Automatica等顶会/期刊
  • 2025 IROS四足机器人挑战赛冠军
课程大纲
  • 第2章: 机器人建模:URDF与浮动基座动力学
  • 第1节: 旋转表示与浮动基座坐标
  • 第2节: 正向运动学与几何雅可比矩阵
  • 第3节: 浮动基座刚体动力学
  • 第4节: URDF 与 MJCF 字段解析
  • 第5节: 本章小结
  • 第6节: Project 1:仿真环境搭建与动力学验证
  • 第3章: 模型精度与系统辨识
  • 第1节: URDF 参数精度评估:206 个参数分类
  • 第2节: 关节摩擦模型:库仑 + 粘性 + Stribeck
  • 第3节: 折算转子惯量:KNEE 转子惯量是连杆的 100 倍
  • 第4节: 经典辨识:单关节实验 → 回归 → 最小二乘
  • 第5节: MATRiX 可微梯度辨识:jax.grad 直接求导
  • 第4章: 强化学习与运动控制(上)
  • 第1节: PPO 算法:截断比率的直觉
  • 第2节: MATRiX GPU 并行训练:4096 环境 vs Isaac Gym
  • 第3节: 观测空间设计:48 维向量每项物理含义
  • 第4节: 奖励函数设计:速度跟踪 · 步态约束 · 能耗惩罚
  • 第5节: Trot 步态约束实现与调参经验
  • 第5章: 强化学习与运动控制(下)
  • 第1节: Domain Randomization:参数分布上的期望优化
  • 第2节: 辨识值 → DR 范围:有辨识 vs 无辨识效果对比
  • 第3节: Curriculum Learning:5 阶段渐进训练
  • 第4节: 地形生成:斜坡 · 碎石 · 台阶 · 随机凹凸
  • 第5节: Project 2:行走策略训练与地形泛化
  • 第6章: Sim-to-Real 迁移
  • 第1节: Gap 系统性分解:6 个来源 × 严重度 × 解决方法
  • 第2节: 摩擦前馈补偿:收益最大、成本最低的技术
  • 第3节: 教师-学生蒸馏(RMA 范式):三步训练流程
  • 第4节: PD 增益调优与实机安全流程
  • 第5节: Project 3:策略部署与摩擦补偿
  • 第7章: 感知导航与系统集成
  • 第1节: 6 层分层架构:VLN → 导航 → RL → PD → 硬件
  • 第2节: RoamerX 导航栈:LiDAR SLAM + 路径规划
  • 第3节: 视觉语言导航(VLN):自然语言 → 运动指令
  • 第4节: 高级运动技能:跳跃力矩估算与实现
  • 第8章: 实机部署与案例分析
  • 第1节: IROS 2025 四足挑战赛冠军案例详解
  • 第2节: 赛场应急:“15 分钟重新训练”的工程实现
  • 第3节: 前沿展望:四足→人形的技术迁移路径
  • 第4节: 学员 Project 展示与点评
  • 第5节: Project 4:完整四足自主系统(Final)
实践项目介绍
Project 1:仿真环境搭建与动力学验证
在MATRiX中加载ZSL-1,SDK遥控行走,计算质量矩阵M和重力向量g,验证零力矩时基座自由落体,可视化12个关节传感器数据。
Project 1:仿真环境搭建与动力学验证 — 项目示意
Project 2:行走策略训练与地形泛化
设计奖励函数,PPO+MATRiX并行训练Trot步态,设置DR(基于第3章辨识值),在≥3种地形上评估泛化能力,对比有/无DR策略表现。
Project 2:行走策略训练与地形泛化 — 项目示意
Project 3:策略部署与摩擦补偿
通过SDK底层接口部署策略,实现摩擦前馈补偿,对比三组实验:无补偿/摩擦补偿/补偿+DR,量化关节跟踪误差和跌倒率。
Project 3:策略部署与摩擦补偿 — 项目示意
Project 4:完整四足自主系统(Final)
综合性Final Project,在MATRiX场景中整合RoamerX导航栈与RL运动策略,实现“目标点→自主导航→到达”完整闭环,含消融实验和失败分析。
Project 4:完整四足自主系统(Final) — 项目示意
课程收获

能读懂任意四足机器人的URDF,理解其动力学参数的物理含义

能用MATRiX可微仿真进行系统辨识(梯度下降拟合物理参数)

能用MATRiX GPU并行训练RL Locomotion策略(不依赖Isaac Gym)

能设计奖励函数、调Domain Randomization参数

能将策略部署到实机(或高保真仿真),理解并解决Sim-to-Real问题

能独立搭建“辨识 → 训练 → 验证 → 部署” 的完整Pipeline

这门课适合谁
机器人相关领域的高年级本科生和研究生
机器人算法工程师/自动驾驶或具身智能从业者
有强化学习基础、想进入机器人领域的算法工程师
参加RoboCup、IROS等机器人竞赛的学生
基础&设备要求
基础要求
必备:Python编程基础,线性代数和概率论基础
最好有:了解过RL基本概念(MDP、奖励、策略),接触过ROS
不需要:四足机器人经验,控制理论深度知识
设备要求

为兼顾更多硬件条件,设备要求分为「基础训练版」和「可视化渲染版」两种,可根据自身设备情况选择:

基础训练版(无可视化)
适用场景:仅模型训练、推理,无可视化渲染需求
优势:对算力/操作系统无限制
最低配置:

操作系统:Windows / macOS / Linux均可

显卡:无强制要求,CPU即可完成训练,无需NVIDIA独立显卡

CPU:Intel i5及以上

内存:8GB及以上(推荐16GB)

存储:256GB及以上

可视化渲染版(含可视化渲染)
适用场景:需要可视化渲染、动态效果演示
优势:完整功能体验,更直观的视觉可视化
最低配置:

操作系统:Ubuntu 22.04

显卡:NVIDIA RTX 4060及以上,显卡驱动版本≥535

CPU:Intel i7及以上多核处理器

内存:16GB及以上(推荐32GB)

存储:512GB及以上

全方位的学习服务

个性化增值服务,学习有保障更高效

作业批改
助教1V1批改作业,定期针对作业中的“通病”进行点评
结业证书
本课程将根据作业完成情况评选结业学员及优秀学员,颁发证书
实时答疑
讲师和助教微信群答疑,及时解决大家遇到的问题
班班督学
班主任全程带班,不定时“关照”未交作业的同学,克服拖延
上课流程说明
进入答疑群,参加开课仪式
每周学习课程,完成作业
助教1V1批改作业、社群内讲评答疑
完成课程,领取证书
— 开启「四足机器人」的学习之旅吧 — 开启学习之旅吧
Q1 学习形式是什么样的?
A:为了保证学习效果,本门课程采取录播的形式,每周解锁一章。建议同学们登录深蓝学院PC端官网,体验更佳!
Q2 课程有有效期吗?
A:为了督促同学们学习,保证学习效率,学院的课程有效期均为一年,当课程有效期截止后将不再支持观看视频、下载课件等课程服务及操作。若同学们依旧想观看视频和下载课件,建议可选择续费本课程。需要提醒大家的是,课程答疑、作业批改&讲评等课程相关服务仅限开课仪式至结课仪式期间
Q3 作业会提供参考答案吗?
A:课程不提供参考答案。每章作业截止提交后,会组织作业讲解。我们倾向于引导大家培养独立思考的习惯与敢于动手实践的勇气,以便于更快适应实际工作中解决问题的模式。做作业过程中,如果有任何困惑和问题,可以在答疑群中提问解决。
Q4 如果不满意,可以退款吗?
A:我们承诺:开班后7天内可以无条件全额退款。课好不好,学了就知道了!

更多信息,请添加客服咨询

客服咨询二维码
添加时请备注关键词『四足

相关推荐

具身智能与机器人 具身智能 人形机器人 进阶
具身智能与机器人 具身智能 机器人学基础 基础
具身智能与机器人 具身智能 进阶

未注册验证后自动登录,注册/登录则视为同意

《服务协议》《隐私协议》

请完善资料,让我们更好的为您服务!

+86  (手机号已绑定)

未注册验证后自动登录,注册/登录则视为同意

《服务协议》《隐私协议》