解锁多模态大模型的空间认知：从鲁棒感知到具身智能 - 深蓝学院 - 专注人工智能与机器人的学习平台

收藏

邀
请
朋
友
一
起
学

解锁多模态大模型的空间认知：从鲁棒感知到具身智能

主讲人：阮受炜 | 北京航空航天大学ROSE Vision Lab博士生

开课时间

2025.09.17 20:00
课程时长

111分钟
学习人数

4024人次学习

立即学习

添加助教，领取课件

立即学习

解锁多模态大模型的空间认知：从鲁棒感知到具身智能

多模态大模型（MLLMs）在视觉感知、推理、具身智能等领域取得了突破，然而，目前的MLLMs仍存在空间认知能力的缺陷，限制了其在物理世界的进一步应用。

本次的汇报将从多模态模型的几何与空间感知能力评测出发，介绍AdvDreamer框架（ICCV 2025 Highlight），探究主流多模态大模型在真实三维世界中的脆弱性。从视角一致性对齐的角度出发，介绍Omniview-Tuning（ECCV 2024 Oral）框架，用于增强多模态模型的3D感知能力。最后，我们将聚焦在具身智能领域的应用，主张从“反应式”感知向基于记忆的“认知式”智能范式转变，并介绍类脑空间智能框架BSC-Nav。该框架不依赖模型的隐式知识，而是显式构建和维护一个包含地标、路线与勘测知识的结构化空间记忆。这一认知核心使得多模态模型驱动下的具身智能体能够进行通用的导航规划与灵活推理。

课程介绍
课件领取
相关课程

直播精华文稿暂未上传

点击领取完整课件

关于我们版权声明联系电话：010-86226736

服务协议反馈建议联系邮箱：hezuo@shenlanxueyuan.com

友情链接：

在线咨询

返回顶部