分享至
主讲人:戚张扬 | 香港大学在读博士生
2025.08.28 20:00
100分钟
14人预约
直播将于08月28日 20:00开始
已有14人报名了此课程
视觉语言导航(VLN)作为具身 AI 的核心挑战,要求智能体借助自然语言指令在真实环境中导航。当前基于语言模型的导航系统依赖离散拓扑图,限制了路径规划的灵活性。
为此,研究团队提出 VLN-R1 端到端框架,利用大型视觉语言模型(LVLM)直接将第一视角视频流转化为连续导航动作,并借鉴 DeepSeek-R1 的训练思路采用 GRPO 算法。为实现有效训练,团队首先利用 3D 模拟器 Habitat 构建 VLN-Ego 数据集,提出长短时记忆采样平衡历史与当前观察。针对大型语言模型虽能监督完整文本指令却缺乏细粒度动作控制的问题,该框架采用两阶段训练:先通过监督微调(SFT)使模型的动作序列文本预测与专家演示对齐,再通过强化微调(RFT)结合时间衰减奖励(TDR)机制对多步未来动作进行策略加权。
实验表明,VLN-R1 在 VLN-CE 基准上表现优异,证实了 LVLM 驱动具身导航的能力,且通过数据高效、奖励驱动的后训练可增强任务特定推理能力。
报名成功
添加助教,入群交流,领取课件
添加微信领取课件
一定记得备注【用户名+课程名称】