三维场景理解的通用模型与评估基准

主讲人:黄江勇 | 北京大学博士生

  • 开课时间

    2025.01.15 19:55

  • 课程时长

    100分钟

  • 预约人数

    5人预约

立即报名
添加助教,领取课件

直播将于01月15日 19:55开始

立即报名

已有5人报名了此课程

三维场景理解的通用模型与评估基准

三维场景理解能力是具身通用智能体的一项关键能力,我们提出三维场景中的通用智能体LEO,基于以物体为中心的三维点云表征与语言模型,展示了其在三维场景理解以及具身交互等任务中的出色表现。另一方面,三维场景理解能力的评估方法与测试基准存在诸多局限性,针对此我们提出了新的测试基准Beacon3D,引入了以物体为中心的评估框架以及基于任务链的一致性分析。

三维场景理解能力是具身通用智能体的一项关键能力,我们提出三维场景中的通用智能体LEO,基于以物体为中心的三维点云表征与语言模型,展示了其在三维场景理解以及具身交互等任务中的出色表现。另一方面,三维场景理解能力的评估方法与测试基准存在诸多局限性,针对此我们提出了新的测试基准Beacon3D,引入了以物体为中心的评估框架以及基于任务链的一致性分析。

直播课件暂未上传
暂无相关课程