面向时尚领域的视觉文本多模态表示学习

主讲人:韩啸 | 英国萨里大学博士

  • 开课时间

    2022.10.13 19:00

  • 课程时长

    63分钟

  • 学习人数

    2320人次学习

立即学习
添加客服微信了解详情,添加时请备注【多模态1】

立即学习

面向时尚领域的视觉文本多模态表示学习

用于表示学习的大规模视觉和语言 (V+L) 预训练已被证明可有效促进各种下游 V+L 任务。 然而,现有的 V+L 方法在时尚领域的表现是不够的,远远没有达到人们的预期。我们认为这是因为之前的方法忽略了时尚 V+L 数据和下游任务的独特特征。为此,我们提出了一系列的解决方案,包括为时尚数据制定独有的预训练任务、设计更加灵活的预训练框架等。本次报告将围绕我们ECCV 2022的工作(FashionViL: Fashion-Focused Vision-and-Language Representation Learning)展开,详细阐述多模态预训练在时尚领域遇到的问题以及我们提出的解决方案。

暂无相关课程