πRL:在线RL微调流匹配VLA

主讲人:陈康 | 北京大学博士生

  • 开课时间

    2025.12.09 20:00

  • 课程时长

    81分钟

  • 学习人数

    1037人次学习

立即学习
添加助教,获取直播地址,领取课件

立即学习

πRL:在线RL微调流匹配VLA

强化学习可以减少VLA模型对大量数据的依赖。我们提出了面向流匹配VLA(π_0, π_(0.5))的强化学习微调框架π_RL,提出Flow-Noise和 Flow-SDE两种微调技术路线,在公开测试平台LIBERO平均性能达到97.6%和98.3%,同时在包含4,352种抓取-放置任务组合的ManiSkill环境当中成功率涨幅 50%,最终成功率超90%。

直播精华文稿暂未上传
具身智能与机器人 具身智能 进阶
具身智能与机器人 具身智能 高级
具身智能与机器人 定位与建图 具身智能 进阶