解锁多模态大模型的空间认知:从鲁棒感知到具身智能

主讲人:阮受炜 | 北京航空航天大学ROSE Vision Lab博士生

  • 开课时间

    2025.09.17 20:00

  • 课程时长

    100分钟

  • 预约人数

    0人预约

立即报名
添加助教,入群交流,领取课件

直播将于09月17日 20:00开始

立即报名

已有0人报名了此课程

解锁多模态大模型的空间认知:从鲁棒感知到具身智能

多模态大模型(MLLMs)在视觉感知、推理、具身智能等领域取得了突破,然而,目前的MLLMs仍存在空间认知能力的缺陷,限制了其在物理世界的进一步应用。 

本次的汇报将从多模态模型的几何与空间感知能力评测出发,介绍AdvDreamer框架(ICCV 2025 Highlight),探究主流多模态大模型在真实三维世界中的脆弱性。从视角一致性对齐的角度出发,介绍Omniview-Tuning(ECCV 2024 Oral)框架,用于增强多模态模型的3D感知能力。最后,我们将聚焦在具身智能领域的应用,主张从“反应式”感知向基于记忆的“认知式”智能范式转变,并介绍类脑空间智能框架BSC-Nav。该框架不依赖模型的隐式知识,而是显式构建和维护一个包含地标、路线与勘测知识的结构化空间记忆。这一认知核心使得多模态模型驱动下的具身智能体能够进行通用的导航规划与灵活推理。

直播精华文稿暂未上传
直播课件暂未上传
机器人与自动驾驶 具身智能 具身智能 进阶
自然语言处理 大模型 大模型 基础
机器人与自动驾驶 具身智能 具身智能 高级
具身智能 定位与建图 具身智能 进阶