具身大模型的应用:从开放环境导航到灵巧操作

主讲人:许镕涛 | 无界智慧(珠海)联合创始人兼CTO

  • 开课时间

    2025.07.08 20:00

  • 课程时长

    100分钟

  • 预约人数

    1人预约

立即报名
添加助教,入群交流,领取课件

直播将于07月08日 20:00开始

立即报名

已有1人报名了此课程

具身大模型的应用:从开放环境导航到灵巧操作

近年来,具身大模型在机器人导航与操作领域展现出强大的潜力。本次讲座聚焦两篇前沿研究:NaVid 和 A₀,分别探讨了视觉语言导航(VLN)与机器人操作中的关键挑战与创新解决方案。

· NaVid 是一种基于视频的大规模视觉语言导航模型,仅需单目RGB视频流即可实现连续环境中的高效导航,无需依赖地图、里程计或深度输入。通过模拟人类导航行为,NaVid显著降低了Sim2Real的泛化差距,并在仿真与真实环境中均达到SOTA性能。

· A₀是一种分层扩散模型,专注于机器人操作中的空间可供性(affordance)理解。其核心是与具身载体无关的可供性表示(Embodiment-Agnostic Affordance Representation),通过预测接触点与轨迹实现跨平台泛化。A₀在复杂任务(如擦拭白板、堆叠物体)中表现优异,并在多机器人平台上验证了其实用性。

这两项研究共同推动了具身智能在开放环境中的实际应用,为未来通用机器人系统提供了重要技术基础。

直播精华文稿暂未上传
直播课件暂未上传
机器人与自动驾驶 具身智能 高级
机器人与自动驾驶 具身智能 进阶
机器人与自动驾驶 具身智能 进阶