VLN-R1：多模态大模型与强化微调进行视觉语言导航 - 深蓝学院 - 专注人工智能与机器人的学习平台

收藏

邀
请
朋
友
一
起
学

VLN-R1：多模态大模型与强化微调进行视觉语言导航

主讲人：戚张扬 | 香港大学在读博士生

开课时间

2025.08.28 20:00
课程时长

83分钟
学习人数

3163人次学习

立即学习

添加助教，入群交流，领取课件

立即学习

VLN-R1：多模态大模型与强化微调进行视觉语言导航

视觉语言导航（VLN）作为具身 AI 的核心挑战，要求智能体借助自然语言指令在真实环境中导航。当前基于语言模型的导航系统依赖离散拓扑图，限制了路径规划的灵活性。

为此，研究团队提出 VLN-R1 端到端框架，利用大型视觉语言模型（LVLM）直接将第一视角视频流转化为连续导航动作，并借鉴 DeepSeek-R1 的训练思路采用 GRPO 算法。为实现有效训练，团队首先利用 3D 模拟器 Habitat 构建 VLN-Ego 数据集，提出长短时记忆采样平衡历史与当前观察。针对大型语言模型虽能监督完整文本指令却缺乏细粒度动作控制的问题，该框架采用两阶段训练：先通过监督微调（SFT）使模型的动作序列文本预测与专家演示对齐，再通过强化微调（RFT）结合时间衰减奖励（TDR）机制对多步未来动作进行策略加权。

实验表明，VLN-R1 在 VLN-CE 基准上表现优异，证实了 LVLM 驱动具身导航的能力，且通过数据高效、奖励驱动的后训练可增强任务特定推理能力。

课程介绍
课件领取
相关课程

直播精华文稿暂未上传

点击领取完整课件

视觉语言导航VLN：理论与实践

具身智能定位与建图具身智能进阶

具身智能线下实训营：机械臂操作与抓取

机器人与自动驾驶具身智能具身智能高级

人形机器人线下实训营：技术与实机实战

机器人与自动驾驶人形机器人三维视觉规划控制定位与建图具身智能环境感知高级

机器人学基础

机器人与自动驾驶具身智能人形机器人规划控制定位与建图具身智能机器人学基础基础

关于我们版权声明联系电话：010-86226736

服务协议反馈建议联系邮箱：hezuo@shenlanxueyuan.com

友情链接：

在线咨询

返回顶部