阿里云 EasyNLP 跨模态学习能力再升级,电商文图检索效果刷新SOTA

访客1年前AI生活258
阿里云 EasyNLP 跨模态学习能力再升级,电商文图检索效果刷新SOTA

近日,阿里云机器学习 PAI 开源框架 EasyNLP进行升级发布,推出了融合了丰富电商场景知识的CLIP模型,在电商文图检索效果上刷新了SOTA结果,并且将上述模型免费开源,贡献给开源社区。

CLIP(Contrastive Language-Image Pre-training)是一种经典的文图跨模态检索模型,它在大规模图文数据集上进行了对比学习预训练,具有很强的文图跨模态表征学习能力。EasyNLP借鉴CLIP的轻量化、易迁移的预训练架构,构建基于CLIP包含图像和文本Encoder两部分的双流模型,同时基于商品数据,以优化电商场景的文图检索优化。

Fashion-Gen数据集是一个大规模的时尚场景的图文数据集,以Fashion-Gen数据集为例,EasyNLP基于pai-clip-commercial-base-en和pai-clip-commercial-large-en这两个模型在Fashion-Gen数据集上进行了20个epoch的微调。实验结果表明,相比于现公布的SOTA模型(CommerceMM),电商CLIP-large模型在文到图和图到文的检索结果上均有显著提升,评测指标最高提升了8.7~15个百分点。

除此之外,电商base模型在文到图与CommerceMM相当检索结果下,使用了更少的参数量。由此可见,电商CLIP无论在large还是base图像Encoder的设置下,都取得了有竞争力的电商场景跨模态检索能力。

文到图检索评测结果

999.jpg 

图到文检索评测结果

888(1)_看图王.jpg 

目前,电商CLIP可在EasyNLP中直接安装使用,在未来,EasyNLP框架会集成更多NLP的多模态的知识模型,覆盖各个常见领域和任务,同时也将集成更多SOTA模型(特别是中⽂模型),来⽀持各种NLP和多模态任务,共建NLP和多模态算法库。

Github地址:https://github.com/alibaba/EasyNLP

本站部分文章来自互联网,文章版权归原作者所有。如有疑问请联系QQ:362580117!

相关文章

三十年资深药企人Derek Lowe抨击AlphaFold:媒体夸大,靠结构预测做药「纯属自嗨」

三十年资深药企人Derek Lowe抨击AlphaFold:媒体夸大,靠结构预测做药「纯属自嗨」

DeepMind近日公布了AlphaFold的最新进展:已预测出超过100万个物种的2.14亿个蛋白质结构,几乎涵盖了地球上所有已知蛋白质,再...

解锁5G双卡的终极形态:边打游戏,边打电话

解锁5G双卡的终极形态:边打游戏,边打电话

手游发烧友晓博总喜欢利用闲暇时间来上几局游戏,工作日晚上,晓博和队友完美配合,准备赢取眼下这局游戏的胜利,决定胜负的关键时刻,同事雅云一个电...

“华为盘古”开天,“乐聚夸父”逐日,机器人产业应用迈向新纪元

“华为盘古”开天,“乐聚夸父”逐日,机器人产业应用迈向新纪元

  3月15日,华为云与乐聚机器人在华为云&华为终端云创新峰会2024上签署战略合作协议,旨在共同探索“华为盘古大模型+夸父人形机器人”应用场景...

路虽远,行则将至 —京东方安全运营中心的5年探索路

路虽远,行则将至 —京东方安全运营中心的5年探索路

“京东方不仅仅是传统认知的一家科技制造企业,而且扩展出很多的业态,既包括小课屏、画屏等面向C端的创新产品,也包括互联网医院、移动健康等智慧医疗...

文心一言公布“满月”成绩单,百度智能云六大产品系列将基于文心一言升级

文心一言公布“满月”成绩单,百度智能云六大产品系列将基于文心一言升级

4月25日,百度智能云在上海召开文心一言技术交流会。据了解,文心一言开启内测一个月以来,已完成4次技术版本升级,大模型推理成本降为原来的十分之...

现代工作场所的视频会议

视频会议已不仅仅是现代工作场所的常见现象。它更是未来工作的趋势。 过去两年发生的事情加速了我们使用视频会议设备和技术的步伐,但这一趋势已然开始...

发表评论    

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。