四足机器人：从动力学建模到强化学习 - 深蓝学院 - 专注人工智能与机器人的学习平台

学习时长

8周/建议每周至少6小时
答疑服务

专属微信答疑群/讲师助教均参与
作业批改

课程配有作业/助教1V1批改
课程有效期

一年/告别拖延，温故知新

开放报名倒计时：

天

时

分

秒

正式开放报名提醒我

正式开放报名提醒我

为什么要学这门课程

很多人能跑通开源的四足机器人强化学习行走代码，却完全不懂其中的底层构建逻辑——如何构建URDF与动力学方程？关节摩擦/转子惯量如何辨识？域随机化如何设计？Sim-to-Real实机迁移的Gap如何破解？这些决定机器人在平地、斜坡、碎石、台阶等复杂地形稳定运行的核心工程细节，一直缺乏系统讲解，也是Robot Learning领域教学的空白地带。

为此，深蓝学院联合英国纽卡斯尔大学正教授、智身科技CTO潘为打造了《四足机器人：从动力学建模到强化学习》课程，以动力学建模为地基、强化学习部署为终点，依托MATRiX可微仿真平台，完整拆解URDF解析、浮动基座动力学、系统辨识、PPO策略训练、域随机化、摩擦前馈补偿、实机部署全流程，更结合IROS四足挑战赛冠军的实战经验，把从仿真到实机、从平地到越障的完整闭环讲透。

从此告别无头苍蝇式的玄学调参，每一个超参数的选取、每一次域随机化范围的设定都有物理依据，让调试从碰运气变为做推理。真正掌握四足机器人运动控制的物理本质与工程开发能力，从开源代码的使用者，成长为能自研底层代码、让机器狗在真实世界稳定行走的核心开发者。

课程定位

不是什么

不是一门RL理论课

(不会花大量时间推导策略梯度定理)
不是一门机器人学导论

(不会从零讲运动学链)
不是一门legged_gym / Isaac Gym代码教程

(不绑定NVIDIA生态)

是什么

是一门教你理解四足机器人的物理本质，然后用RL控制它的工程实践课
每一步都在为下一步铺路：模型 → 辨识 → 仿真 → 训练 → 部署
全程基于MATRiX一站式平台（MuJoCo可微物理+UE5渲染+GPU并行，支持ZSL-1、Go2等多种型号四足机器人）
辨识、训练、视觉验证、部署在同一个平台闭环，学完即掌握完整工具链

讲师简介

潘为

英国纽卡斯尔大学正教授，智身科技CTO

Newcastle University自主系统与自动控制正教授（Full Professor）
智身科技CTO
Imperial College London系统辨识方向博士
前TU Delft机器人动力学助理教授 / DJI项目负责人
Robot Learning领域核心期刊/会议编委：IEEE RA-L Senior Editor（杰出AE奖）、ACM TOPML Senior Editor、IEEE T-RO / T-RL / T-ASE Associate Editor、ICRA / IROS / RSS / CoRL / L4DC Area Chair
发表NeurIPS、ICML、ICLR、T-RO、RAL、CoRL、ICRA、IROS、TAC、Automatica等顶会/期刊
2025 IROS四足机器人挑战赛冠军

课程大纲

第1章: 导论：四足控制的演进
第1节: 四足控制技术：有模型MPC vs 无模型RL
第2节: MPC 与 RL 的能力边界
第3节: 可微物理仿真引擎 MJX

第2章: 机器人建模：URDF与浮动基座动力学
第1节: 旋转表示与浮动基座坐标
第2节: 正向运动学与几何雅可比矩阵
第3节: 浮动基座刚体动力学
第4节: URDF 与 MJCF 字段解析
第5节: 本章小结
第6节: Project 1：仿真环境搭建与动力学验证

第3章: 模型精度与系统辨识
第1节: URDF 参数精度评估：206 个参数分类
第2节: 关节摩擦模型：库仑 + 粘性 + Stribeck
第3节: 折算转子惯量：KNEE 转子惯量是连杆的 100 倍
第4节: 经典辨识：单关节实验 → 回归 → 最小二乘
第5节: MATRiX 可微梯度辨识：jax.grad 直接求导

第4章: 强化学习与运动控制（上）
第1节: PPO 算法：截断比率的直觉
第2节: MATRiX GPU 并行训练：4096 环境 vs Isaac Gym
第3节: 观测空间设计：48 维向量每项物理含义
第4节: 奖励函数设计：速度跟踪 · 步态约束 · 能耗惩罚
第5节: Trot 步态约束实现与调参经验

第5章: 强化学习与运动控制（下）
第1节: Domain Randomization：参数分布上的期望优化
第2节: 辨识值 → DR 范围：有辨识 vs 无辨识效果对比
第3节: Curriculum Learning：5 阶段渐进训练
第4节: 地形生成：斜坡 · 碎石 · 台阶 · 随机凹凸
第5节: Project 2：行走策略训练与地形泛化

第6章: Sim-to-Real 迁移
第1节: Gap 系统性分解：6 个来源 × 严重度 × 解决方法
第2节: 摩擦前馈补偿：收益最大、成本最低的技术
第3节: 教师-学生蒸馏（RMA 范式）：三步训练流程
第4节: PD 增益调优与实机安全流程
第5节: Project 3：策略部署与摩擦补偿

第7章: 感知导航与系统集成
第1节: 6 层分层架构：VLN → 导航 → RL → PD → 硬件
第2节: RoamerX 导航栈：LiDAR SLAM + 路径规划
第3节: 视觉语言导航（VLN）：自然语言 → 运动指令
第4节: 高级运动技能：跳跃力矩估算与实现

第8章: 实机部署与案例分析
第1节: IROS 2025 四足挑战赛冠军案例详解
第2节: 赛场应急：“15 分钟重新训练”的工程实现
第3节: 前沿展望：四足→人形的技术迁移路径
第4节: 学员 Project 展示与点评
第5节: Project 4：完整四足自主系统（Final）

实践项目介绍

Project 1：仿真环境搭建与动力学验证

在MATRiX中加载ZSL-1，SDK遥控行走，计算质量矩阵M和重力向量g，验证零力矩时基座自由落体，可视化12个关节传感器数据。

Project 1：仿真环境搭建与动力学验证 — 项目示意

Project 2：行走策略训练与地形泛化

设计奖励函数，PPO+MATRiX并行训练Trot步态，设置DR（基于第3章辨识值），在≥3种地形上评估泛化能力，对比有/无DR策略表现。

Project 2：行走策略训练与地形泛化 — 项目示意

Project 3：策略部署与摩擦补偿

通过SDK底层接口部署策略，实现摩擦前馈补偿，对比三组实验：无补偿/摩擦补偿/补偿+DR，量化关节跟踪误差和跌倒率。

Project 3：策略部署与摩擦补偿 — 项目示意

Project 4：完整四足自主系统（Final）

综合性Final Project，在MATRiX场景中整合RoamerX导航栈与RL运动策略，实现“目标点→自主导航→到达”完整闭环，含消融实验和失败分析。

Project 4：完整四足自主系统（Final） — 项目示意

课程收获

能读懂任意四足机器人的URDF，理解其动力学参数的物理含义

能用MATRiX可微仿真进行系统辨识（梯度下降拟合物理参数）

能用MATRiX GPU并行训练RL Locomotion策略（不依赖Isaac Gym）

能设计奖励函数、调Domain Randomization参数

能将策略部署到实机（或高保真仿真），理解并解决Sim-to-Real问题

能独立搭建“辨识 → 训练 → 验证 → 部署” 的完整Pipeline

这门课适合谁

机器人相关领域的高年级本科生和研究生

机器人算法工程师/自动驾驶或具身智能从业者

有强化学习基础、想进入机器人领域的算法工程师

参加RoboCup、IROS等机器人竞赛的学生

基础&设备要求

基础要求

必备：Python编程基础，线性代数和概率论基础

最好有：了解过RL基本概念（MDP、奖励、策略），接触过ROS

不需要：四足机器人经验，控制理论深度知识

设备要求

为兼顾更多硬件条件，设备要求分为「基础训练版」和「可视化渲染版」两种，可根据自身设备情况选择：

基础训练版（无可视化）

适用场景：仅模型训练、推理，无可视化渲染需求

优势：对算力/操作系统无限制

最低配置：

操作系统：Windows / macOS / Linux均可

显卡：无强制要求，CPU即可完成训练，无需NVIDIA独立显卡

CPU：Intel i5及以上

内存：8GB及以上（推荐16GB）

存储：256GB及以上

可视化渲染版（含可视化渲染）

适用场景：需要可视化渲染、动态效果演示

优势：完整功能体验，更直观的视觉可视化

最低配置：

操作系统：Ubuntu 22.04

显卡：NVIDIA RTX 4060及以上，显卡驱动版本≥535

CPU：Intel i7及以上多核处理器

内存：16GB及以上（推荐32GB）

存储：512GB及以上

全方位的学习服务

个性化增值服务，学习有保障更高效

作业批改

助教1V1批改作业，定期针对作业中的“通病”进行点评

结业证书

本课程将根据作业完成情况评选结业学员及优秀学员，颁发证书

实时答疑

讲师和助教微信群答疑，及时解决大家遇到的问题

班班督学

班主任全程带班，不定时“关照”未交作业的同学，克服拖延

上课流程说明

进入答疑群，参加开课仪式

每周学习课程，完成作业

助教1V1批改作业、社群内讲评答疑

完成课程，领取证书

— 开启「四足机器人」的学习之旅吧 — 开启学习之旅吧

Q1 学习形式是什么样的？

A：为了保证学习效果，本门课程采取录播的形式，每周解锁一章。建议同学们登录深蓝学院PC端官网，体验更佳!

Q2 课程有有效期吗？

A：为了督促同学们学习，保证学习效率，学院的课程有效期均为一年，当课程有效期截止后将不再支持观看视频、下载课件等课程服务及操作。若同学们依旧想观看视频和下载课件，建议可选择续费本课程。需要提醒大家的是，课程答疑、作业批改&讲评等课程相关服务仅限开课仪式至结课仪式期间。

Q3 作业会提供参考答案吗？

A：课程不提供参考答案。每章作业截止提交后，会组织作业讲解。我们倾向于引导大家培养独立思考的习惯与敢于动手实践的勇气，以便于更快适应实际工作中解决问题的模式。做作业过程中，如果有任何困惑和问题，可以在答疑群中提问解决。

Q4 如果不满意，可以退款吗？

A：我们承诺：开班后7天内可以无条件全额退款。课好不好，学了就知道了！

更多信息，请添加客服咨询

客服咨询二维码

添加时请备注关键词『四足』

+ 86

获取验证码

账号密码登录

未注册验证后自动登录，注册/登录则视为同意

《服务协议》和《隐私协议》

未注册验证后自动登录，注册/登录则视为同意

《服务协议》和《隐私协议》

关于我们版权声明联系电话：010-86226736

服务协议反馈建议联系邮箱：hezuo@shenlanxueyuan.com

友情链接：

在线咨询

返回顶部