多模态驱动的开放词汇3D物体检测

主讲人:曹洋 | 香港科技大学在读博士生

  • 开课时间

    2025.05.27 20:00

  • 课程时长

    100分钟

  • 预约人数

    1人预约

立即报名
添加助教,入群交流,领取课件

直播将于05月27日 20:00开始

立即报名

已有1人报名了此课程

多模态驱动的开放词汇3D物体检测

Open-vocabulary 3D Object Detection (OV-3DDet) 是一个极具挑战性的新任务,旨在从3D场景中检测任意新类别的物体,但目前相关研究仍较为初步。针对这一领域的核心问题——新类别物体的定位与分类,我们提出了一种统一的多模态框架 CoDA。首先,我们设计了一种 3D Novel Object Discovery 策略,通过结合3D几何先验和2D开放词汇的语义先验,有效生成新类别物体的伪框标签。其次,为提升新类别物体分类性能,我们开发了一个跨模态对齐模块,通过对3D点云、图像和文本特征空间进行联合对齐,实现类别不可知与类别区分的双重对齐。继而,将新物体的发现与跨模态对齐过程联合学习,使得两者相互促进,最终实现新物体的高效定位与分类。在SUN-RGBD和ScanNet数据集上的实验证明,CoDA 在mAP指标上相比现有最佳方法提升了80%,展示了跨模态特征对齐与开放词汇检测的巨大潜力。

直播精华文稿暂未上传
直播课件暂未上传
机器人与自动驾驶 环境感知 高级
计算机视觉 三维视觉 环境感知 进阶