VLN-R1:多模态大模型与强化微调进行视觉语言导航

主讲人:戚张扬 | 香港大学在读博士生

  • 开课时间

    2025.08.28 20:00

  • 课程时长

    83分钟

  • 学习人数

    1582人次学习

立即学习
添加助教,入群交流,领取课件

立即学习

VLN-R1:多模态大模型与强化微调进行视觉语言导航

视觉语言导航(VLN)作为具身 AI 的核心挑战,要求智能体借助自然语言指令在真实环境中导航。当前基于语言模型的导航系统依赖离散拓扑图,限制了路径规划的灵活性。

为此,研究团队提出 VLN-R1 端到端框架,利用大型视觉语言模型(LVLM)直接将第一视角视频流转化为连续导航动作,并借鉴 DeepSeek-R1 的训练思路采用 GRPO 算法。为实现有效训练,团队首先利用 3D 模拟器 Habitat 构建 VLN-Ego 数据集,提出长短时记忆采样平衡历史与当前观察。针对大型语言模型虽能监督完整文本指令却缺乏细粒度动作控制的问题,该框架采用两阶段训练:先通过监督微调(SFT)使模型的动作序列文本预测与专家演示对齐,再通过强化微调(RFT)结合时间衰减奖励(TDR)机制对多步未来动作进行策略加权。

实验表明,VLN-R1 在 VLN-CE 基准上表现优异,证实了 LVLM 驱动具身导航的能力,且通过数据高效、奖励驱动的后训练可增强任务特定推理能力。

直播精华文稿暂未上传
具身智能 定位与建图 具身智能 进阶
机器人与自动驾驶 具身智能 具身智能 高级
机器人与自动驾驶 人形机器人 三维视觉 规划控制 定位与建图 具身智能 环境感知 高级
机器人与自动驾驶 具身智能 人形机器人 规划控制 定位与建图 具身智能 机器人学基础 基础