具身大模型的应用:从开放环境导航到灵巧操作
近年来,具身大模型在机器人导航与操作领域展现出强大的潜力。本次讲座聚焦两篇前沿研究:NaVid 和 A₀,分别探讨了视觉语言导航(VLN)与机器人操作中的关键挑战与创新解决方案。
· NaVid 是一种基于视频的大规模视觉语言导航模型,仅需单目RGB视频流即可实现连续环境中的高效导航,无需依赖地图、里程计或深度输入。通过模拟人类导航行为,NaVid显著降低了Sim2Real的泛化差距,并在仿真与真实环境中均达到SOTA性能。
· A₀是一种分层扩散模型,专注于机器人操作中的空间可供性(affordance)理解。其核心是与具身载体无关的可供性表示(Embodiment-Agnostic Affordance Representation),通过预测接触点与轨迹实现跨平台泛化。A₀在复杂任务(如擦拭白板、堆叠物体)中表现优异,并在多机器人平台上验证了其实用性。
这两项研究共同推动了具身智能在开放环境中的实际应用,为未来通用机器人系统提供了重要技术基础。