他目前于英国萨里大学(University of Surrey)音视频信号处理中心(CVSSP)攻读博士学位,师从Yi-Zhe Song和Tao Xiang教授。本科毕业于浙江大学。研究领域为视觉文本多模态深度学习,包括图像文本预训练、跨模态检索、图像/文本生成等,尤其关注于多模态技术在实际场景(如安防,电商)下的应用。曾在CVPR/ECCV/BMVC上发表过一系列文章。