分享至
主讲人:曹洋 | 香港科技大学在读博士生
2025.05.27 20:00
51分钟
1543人次学习
立即学习
Open-vocabulary 3D Object Detection (OV-3DDet) 是一个极具挑战性的新任务,旨在从3D场景中检测任意新类别的物体,但目前相关研究仍较为初步。针对这一领域的核心问题——新类别物体的定位与分类,我们提出了一种统一的多模态框架 CoDA。首先,我们设计了一种 3D Novel Object Discovery 策略,通过结合3D几何先验和2D开放词汇的语义先验,有效生成新类别物体的伪框标签。其次,为提升新类别物体分类性能,我们开发了一个跨模态对齐模块,通过对3D点云、图像和文本特征空间进行联合对齐,实现类别不可知与类别区分的双重对齐。继而,将新物体的发现与跨模态对齐过程联合学习,使得两者相互促进,最终实现新物体的高效定位与分类。在SUN-RGBD和ScanNet数据集上的实验证明,CoDA 在mAP指标上相比现有最佳方法提升了80%,展示了跨模态特征对齐与开放词汇检测的巨大潜力。
报名成功
添加助教,入群交流,领取课件
点此立即学习
添加微信领取课件
一定记得备注【用户名+课程名称】