多模态驱动的开放词汇3D物体检测 - 深蓝学院 - 专注人工智能与机器人的学习平台

收藏

邀
请
朋
友
一
起
学

多模态驱动的开放词汇3D物体检测

主讲人：曹洋 | 香港科技大学在读博士生

开课时间

2025.05.27 20:00
课程时长

51分钟
学习人数

2595人次学习

立即学习

添加助教，入群交流，领取课件

立即学习

多模态驱动的开放词汇3D物体检测

Open-vocabulary 3D Object Detection (OV-3DDet) 是一个极具挑战性的新任务，旨在从3D场景中检测任意新类别的物体，但目前相关研究仍较为初步。针对这一领域的核心问题——新类别物体的定位与分类，我们提出了一种统一的多模态框架 CoDA。首先，我们设计了一种 3D Novel Object Discovery 策略，通过结合3D几何先验和2D开放词汇的语义先验，有效生成新类别物体的伪框标签。其次，为提升新类别物体分类性能，我们开发了一个跨模态对齐模块，通过对3D点云、图像和文本特征空间进行联合对齐，实现类别不可知与类别区分的双重对齐。继而，将新物体的发现与跨模态对齐过程联合学习，使得两者相互促进，最终实现新物体的高效定位与分类。在SUN-RGBD和ScanNet数据集上的实验证明，CoDA 在mAP指标上相比现有最佳方法提升了80%，展示了跨模态特征对齐与开放词汇检测的巨大潜力。

课程介绍
课件领取
相关课程

直播精华文稿暂未上传

点击领取完整课件

关于我们版权声明联系电话：010-86226736

服务协议反馈建议联系邮箱：hezuo@shenlanxueyuan.com

友情链接：

在线咨询

返回顶部