分享至
主讲人:阮受炜 | 北京航空航天大学ROSE Vision Lab博士生
2025.09.17 20:00
100分钟
0人预约
直播将于09月17日 20:00开始
已有0人报名了此课程
多模态大模型(MLLMs)在视觉感知、推理、具身智能等领域取得了突破,然而,目前的MLLMs仍存在空间认知能力的缺陷,限制了其在物理世界的进一步应用。
本次的汇报将从多模态模型的几何与空间感知能力评测出发,介绍AdvDreamer框架(ICCV 2025 Highlight),探究主流多模态大模型在真实三维世界中的脆弱性。从视角一致性对齐的角度出发,介绍Omniview-Tuning(ECCV 2024 Oral)框架,用于增强多模态模型的3D感知能力。最后,我们将聚焦在具身智能领域的应用,主张从“反应式”感知向基于记忆的“认知式”智能范式转变,并介绍类脑空间智能框架BSC-Nav。该框架不依赖模型的隐式知识,而是显式构建和维护一个包含地标、路线与勘测知识的结构化空间记忆。这一认知核心使得多模态模型驱动下的具身智能体能够进行通用的导航规划与灵活推理。
报名成功
添加助教,入群交流,领取课件
添加微信领取课件
一定记得备注【用户名+课程名称】