• 学习时长

    8周/建议每周至少6小时

  • 答疑服务

    专属微信答疑群/讲师助教均参与

  • 作业批改

    课程配有作业/助教1V1批改

  • 课程有效期

    一年/告别拖延,温故知新

  • 第2章: VLN数据集与任务设定
  • 第1节: 主要数据集(如R2R, RxR, Touchdown, CVDN, REVERIE等)
  • 第2节: 任务类型与评估指标
  • 第3节: 多语言、多场景的扩展方向

实践项目介绍

项目1:R2R任务
R2R(Room-to-Room)是首个大规模视觉语言导航数据集,基于Matterport3D室内扫描场景,提供自然语言指令与实际路径对齐标注,涵盖多样化建筑布局与复杂空间关系,用于训练和评估智能体在真实三维室内环境中根据语言指令完成导航任务的能力,是VLN研究的重要基准。
基于真实Matterport3D室内场景构建
提供自然语言指令与离散导航路径对齐标注
场景多样,适合VLN基线模型训练与评测
项目2:VLN-CE任务
VLN-CE(Vision-Language Navigation in Continuous Environments)将R2R扩展至连续动作空间,提供真实感物理碰撞与运动约束。基于Matterport3D和Habitat平台,支持物理可行的连续运动与传感输入模拟。相比离散环境,它更贴近现实机器人导航,强调感知、避障与路径规划的综合能力评估。
扩展R2R至连续动作空间,更贴近真实机器人导航
使用高精度3D网格并考虑物理可行性
强调感知、避障与路径规划的综合能力
项目3:REVERIE任务
REVERIE(Remote Embodied Visual Referring Expression in Real Indoor Environments)将视觉导航与物体定位结合,要求智能体在复杂室内场景中根据远程描述找到特定目标物品。数据基于Matterport3D,包含丰富的自然语言指令与目标物体标注,任务难度高,需要结合全局导航规划与局部视觉识别。
将视觉导航与精细物体定位任务结合
提供自然语言远程描述与物体标注
评估智能体的全局路径规划与局部识别能力
项目4:AerialVLN任务
AerialVLN是首个低空无人机视觉语言导航数据集,涵盖多样城市与自然场景,结合航拍视觉特征与自然语言导航指令,强调三维空间理解与飞行路径规划能力。任务场景中存在地标识别、飞行高度控制和避障需求,推动了具身智能体在空中环境中的多模态导航研究。
首个低空无人机视觉语言导航数据集
结合航拍视觉与自然语言指令
涵盖高度控制、避障与三维空间理解任务

相关推荐

机器人与自动驾驶 具身智能 具身智能 高级
机器人与自动驾驶 具身智能 具身智能 进阶
机器人与自动驾驶 人形机器人 三维视觉 规划控制 定位与建图 具身智能 环境感知 高级
机器人与自动驾驶 具身智能 人形机器人 规划控制 定位与建图 具身智能 机器人学基础 基础

未注册验证后自动登录,注册/登录则视为同意

《服务协议》《隐私协议》

请完善资料,让我们更好的为您服务!

+86  (手机号已绑定)

未注册验证后自动登录,注册/登录则视为同意

《服务协议》《隐私协议》