OmniDrive: 自动驾驶3D视觉语言模型实践

主讲人:王仕豪 | 北京理工大学硕士

  • 开课时间

    2024.07.29 19:55

  • 课程时长

    100分钟

  • 学习人数

    1500人次学习

立即学习
添加助教,领取课件

立即学习

OmniDrive: 自动驾驶3D视觉语言模型实践

大语言模型(Large Language Models, LLMs)展现了出色的推理能力,它们在端到端自动驾驶中的应用已经呈现出丰富的可能性。然而,将这些模型从二维空间理解扩展到三维空间是一个重要挑战。对于自动驾驶车辆,理解三维世界并进行三维空间的导航是不可或缺的,因为这些直接影响到车辆的决策能力。虽然以往的研究已经尝试地将大语言模型应用于自动驾驶,但仍然需要一种全面和原则性的方法,将视觉语言模型的二维理解和推理能力完全扩展到复杂的三维场景中。我们提出了OmniDrive,通过Q-Former3D结构作为桥梁迁移大语言模型的预训练知识,并且使用三维位置编码和目标查询为模型引入几何先验。在此基础上,结合三维目标检测和在线地图构建任务帮助语言模型理解城市化道路环境。为了进行视觉语言模型的训练,利用GPT-4V和nuScenes数据集的三维标注建立OmniDrive数据集。

·

大语言模型(Large Language Models, LLMs)展现了出色的推理能力,它们在端到端自动驾驶中的应用已经呈现出丰富的可能性。然而,将这些模型从二维空间理解扩展到三维空间是一个重要挑战。对于自动驾驶车辆,理解三维世界并进行三维空间的导航是不可或缺的,因为这些直接影响到车辆的决策能力。虽然以往的研究已经尝试地将大语言模型应用于自动驾驶,但仍然需要一种全面和原则性的方法,将视觉语言模型的二维理解和推理能力完全扩展到复杂的三维场景中。我们提出了OmniDrive,通过Q-Former3D结构作为桥梁迁移大语言模型的预训练知识,并且使用三维位置编码和目标查询为模型引入几何先验。在此基础上,结合三维目标检测和在线地图构建任务帮助语言模型理解城市化道路环境。为了进行视觉语言模型的训练,利用GPT-4V和nuScenes数据集的三维标注建立OmniDrive数据集。

机器人与自动驾驶 规划控制 进阶
机器人与自动驾驶 环境感知 高级