-
学习时长
8周/建议每周至少6小时
-
答疑服务
专属微信答疑群/讲师助教均参与
-
作业批改
课程配有作业/助教1V1批改
-
课程有效期
一年/告别拖延,温故知新
- 第1章: 视觉语言导航与具身智能概论
- 第1节: VLN任务背景与研究意义
- 第2节: Embodied AI的基本构成:视觉感知、语言理解与动作控制
- 第3节: VLN与传统导航/语言任务的区别与挑战
- 第2章: VLN数据集与任务设定
- 第1节: 主要数据集(如R2R, RxR, Touchdown, CVDN, REVERIE等)
- 第2节: 任务类型与评估指标
- 第3节: 多语言、多场景的扩展方向
- 第3章: 基础结构设计:序列与融合模型
- 第1节: 视觉与语言输入的建模方式
- 第2节: CNN - LSTM、融合模块等结构解析
- 第3节: 编码器-解码器架构与行为生成策略
- 第4章: 学习范式:模仿学习与强化学习
- 第1节: 行为克隆与基于示范的训练
- 第2节: 强化学习在VLN中的应用与挑战
- 第3节: IL/RL混合训练方案
- 第5章: 视觉语言预训练技术
- 第1节: VLN-BERT、PREVALENT、HAMT等代表性模型解析
- 第2节: 预训练与微调策略
- 第3节: 跨任务迁移能力与数据效率
- 第6章: VLN与大语言模型(LLM)的融合
- 第1节: LLM作为指令理解与规划模块
- 第2节: 与视觉模块协同的端到端系统
- 第3节: Prompt设计与零样本导航能力探索
- 第7章: 空中视觉语言导航(Air VLN)
- 第1节: 空中机器人(如无人机)场景的任务特点
- 第2节: 视觉建图、动态规控、跨尺度感知问题
- 第3节: 空中VLN的新兴数据集与算法趋势
- 第8章: 机器人中的视觉语言导航应用
- 第1节: 在服务机器人、家庭机器人中的实际部署
- 第2节: 多模态感知与控制系统集成
- 第3节: 安全性、鲁棒性与现实环境适应能力
实践项目介绍
项目1:R2R任务
R2R(Room-to-Room)是首个大规模视觉语言导航数据集,基于Matterport3D室内扫描场景,提供自然语言指令与实际路径对齐标注,涵盖多样化建筑布局与复杂空间关系,用于训练和评估智能体在真实三维室内环境中根据语言指令完成导航任务的能力,是VLN研究的重要基准。
基于真实Matterport3D室内场景构建
提供自然语言指令与离散导航路径对齐标注
场景多样,适合VLN基线模型训练与评测

项目2:VLN-CE任务
VLN-CE(Vision-Language Navigation in Continuous
Environments)将R2R扩展至连续动作空间,提供真实感物理碰撞与运动约束。基于Matterport3D和Habitat平台,支持物理可行的连续运动与传感输入模拟。相比离散环境,它更贴近现实机器人导航,强调感知、避障与路径规划的综合能力评估。
扩展R2R至连续动作空间,更贴近真实机器人导航
使用高精度3D网格并考虑物理可行性
强调感知、避障与路径规划的综合能力

项目3:REVERIE任务
REVERIE(Remote Embodied Visual Referring Expression in Real Indoor
Environments)将视觉导航与物体定位结合,要求智能体在复杂室内场景中根据远程描述找到特定目标物品。数据基于Matterport3D,包含丰富的自然语言指令与目标物体标注,任务难度高,需要结合全局导航规划与局部视觉识别。
将视觉导航与精细物体定位任务结合
提供自然语言远程描述与物体标注
评估智能体的全局路径规划与局部识别能力

项目4:AerialVLN任务
AerialVLN是首个低空无人机视觉语言导航数据集,涵盖多样城市与自然场景,结合航拍视觉特征与自然语言导航指令,强调三维空间理解与飞行路径规划能力。任务场景中存在地标识别、飞行高度控制和避障需求,推动了具身智能体在空中环境中的多模态导航研究。
首个低空无人机视觉语言导航数据集
结合航拍视觉与自然语言指令
涵盖高度控制、避障与三维空间理解任务
