Meta 开发出文本生成图像模型 CM3Leon,号称业界最佳

sxkk20081年前智能百科133
近来,Meta开发出一款名为 CM3Leon 的一个多模态基础模型,可用于文本到图像和图像到文本的创作,特别擅长自动生成图像标题。

近来,Meta开发出一款名为 CM3Leon 的一个多模态基础模型,可用于文本到图像和图像到文本的创作,特别擅长自动生成图像标题。

人工智能生成图像的技术已经不再新鲜,许多广泛使用的工具如Stable Diffusion、DALL-E和Midjourney取得了很大的成功。

然而,Meta正在利用构建CM3leon的技术,以及该基础模型能够实现的性能,为这一领域带来新的突破。


Meta 开发出文本生成图像模型 CM3Leon,号称业界最佳

目前,文本到图像生成技术主要依赖于扩散模型(Stable Diffusion得名于此)来创作图像,而CM3leon采用了一种不同的方法,基于token的自回归模型。

在Meta的研究论文《Scaling Autoregressive Multi-Modal Models: Pretraining and Instruction Tuning》中,研究人员写道:


“近年来,由于计算成本相对较低,扩散模型在图像生成领域占据主导地位。然而,基于token的自回归模型以其出色的全局图像连贯性而闻名,尽管训练和推理的成本更高。”

但现在,Meta的研究人员已经证明了CM3leon这种基于token的自回归模型实际上比扩散模型更高效。Meta的研究人员在一篇博客文章中表示:“尽管使用的计算资源减少了五倍,CM3leon在文本到图像生成方面实现了最先进的性能。”

CM3leon的基本工作原理在某种程度上类似于现有的文本生成模型。Meta的研究人员首先进行了一个强化的预训练阶段。与仅依赖公开可用的互联网图像的扩散模型不同,Meta选择了一条不同的道路。


Meta 开发出文本生成图像模型 CM3Leon,号称业界最佳


Meta的研究论文指出:“在文本到图像生成领域,以图像数据源为基础的道德影响引发了广泛的讨论。在我们的研究中,我们仅使用经过授权的Shutterstock图像,从而避免了与图像所有权和归属有关的担忧,同时并不牺牲性能。”

在预训练之后,CM3leon模型经历了一个有监督微调阶段(SFT)。Meta的研究人员声称这种方法产生了高度优化的结果,无论是资源利用还是图像质量。该方法是OpenAI用于培训ChatGPT的一种方法。Meta在研究论文中指出,SFT对于训练模型理解复杂提示在生成任务中非常有用。

论文中指出:


“我们发现,指导调整显著提高了多模态模型在图像标题生成、视觉问答、基于文本的编辑和条件图像生成等各种任务中的性能。”

通过查看Meta在关于CM3leon的博客文章中分享的生成图像样本集,可以清楚地看到模型对复杂多阶段提示的理解,并生成具有极高分辨率的图像,给人留下深刻的印象。

目前,CM3leon仍然是一个研究项目,尚不清楚Meta是否会在其平台的某个服务中公开提供这项技术。鉴于其强大的性能和更高的生成效率,CM3leon及其生成式人工智能方法有望超越研究阶段并得到实际应用。


相关文章

Chrome上搜索AI插件,在任何网站获取AI助手响应

Chrome上搜索AI插件,在任何网站获取AI助手响应

Chrome 上搜索 AI 助手插件支持在任何网站上获取 AI 助手响应,适用于谷歌、 Gmail 等 1000 万 + 网站,免费且安全,可让 AI 助手无处不在,随时问任何问题,即时可得到准确简洁...

谷歌更新隐私政策规定,可使用互联网上的公开信息训练 AI 模型

谷歌更新隐私政策规定,可使用互联网上的公开信息训练 AI 模型

数据,是 AI 技术发展的其中一大要素,也一直是科技巨头们“斗争”的焦点。近期,搜索引擎巨头谷歌对其隐私政策进行了更新,明确表示公司将保留获取用户在网上发布的内容来训练其人工智能工具的权利。数据,作为...

直面消费者问题,贝壳杭州站开展客户见面会

直面消费者问题,贝壳杭州站开展客户见面会

 近日,贝壳杭州站客户见面会如期开展。运营总经理张亮携各专业线负责人,与多位客户业主进行面对面交流,倾听他们关于房子的经历,了解他们最真实的感受,在沟通中找到问题,在解决问题中明...

AI聊天 auto speech插件,AI聊天响应文本自动语音转换

AI聊天 auto speech插件,AI聊天响应文本自动语音转换

AI 聊天 auto speech 插件是一款简单实用的文本转语音工具,适用于 Chrome 浏览器,支持将浏览器任意网页中的 AI 聊天 响应文本转换为语音并自动播放,轻松为 AI 聊天提供更人性化...

AIChat lite插件, 将AI聊天机器人集成到任何网站

AIChat lite插件, 将AI聊天机器人集成到任何网站

AIChat lite 插件支持将 AI 聊天机器人集成到 Chrome 浏览器任何网站上,AI 聊天机器人的回应与常规搜索引擎结果一起出现,可为用户提供即时、有用的答案,帮助用户快速、轻松地获取需要...

DiffusionDraw Stable Diffusion插件,AI绘画,文生图,图生图

DiffusionDraw Stable Diffusion插件,AI绘画,文生图,图生图

DiffusionDraw Stable Diffusion 插件是一款基于 Stable Diffusion 的多模型图像生成工具,支持文生图、图生图、图片无损放大等各种实用功能,非常简单实用,且完...

发表评论    

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。