多模态驱动的开放词汇3D物体检测
Open-vocabulary 3D Object Detection (OV-3DDet) 是一个极具挑战性的新任务,旨在从3D场景中检测任意新类别的物体,但目前相关研究仍较为初步。针对这一领域的核心问题——新类别物体的定位与分类,我们提出了一种统一的多模态框架 CoDA。首先,我们设计了一种 3D Novel Object Discovery 策略,通过结合3D几何先验和2D开放词汇的语义先验,有效生成新类别物体的伪框标签。其次,为提升新类别物体分类性能,我们开发了一个跨模态对齐模块,通过对3D点云、图像和文本特征空间进行联合对齐,实现类别不可知与类别区分的双重对齐。继而,将新物体的发现与跨模态对齐过程联合学习,使得两者相互促进,最终实现新物体的高效定位与分类。在SUN-RGBD和ScanNet数据集上的实验证明,CoDA 在mAP指标上相比现有最佳方法提升了80%,展示了跨模态特征对齐与开放词汇检测的巨大潜力。