视觉定位任务在大场景中的挑战

主讲人:刘明楷 | 北京大学硕士生

  • 开课时间

    详询下方工作人员

  • 课程时长

    90分钟(预计)

  • 学习人数

    101人次学习

立即学习
添加助教,入群交流

立即学习

视觉定位任务在大场景中的挑战

场景坐标回归(SCR)方法虽在小规模定位任务中表现出色,但扩展至大规模场景时,会受单一网络容量限制。该限制直接影响机器人应用领域 —— 在复杂环境中,精准且高效的场景理解对导航与交互至关重要。为应对这些挑战,我们提出基于混合专家系统的加速坐标编码方法,可实现大规模场景中的高效定位与高质量渲染。 

受混合专家模型(MOE)在大模型领域卓越性能的启发,我们引入门控网络,对子网进行隐式分类与选择,确保每次推理过程中仅激活一个子网。此外,我们还提出无辅助损失负载均衡(ALF-LB)策略,同时还引入多峰先验,以提升大规模场景下的定位精度。我们的框架在大幅降低计算成本的同时,仍保持较高精度,为大规模场景应用提供了高效解决方案。

直播精华文稿暂未上传
直播课件暂未上传
机器人与自动驾驶 环境感知 高级
机器学习 计算机视觉 机器学习 计算机视觉 进阶
计算机视觉 三维视觉 环境感知 进阶
具身智能 定位与建图 具身智能 进阶