Stable Diffusion XL 0.9 重磅发布,35 亿 + 66 亿双模型,AI 图像生成飞跃式进步

sxkk20082年前智能百科416
近日,最新版本的 Stable Diffusion XL 0.9(SDXL 0.9)已经发布,并与之前的模型相比,在图像和构图细节上有了重大突破。Stable Diffusion XL 0.9 在与 Midjourney 的竞争中表现出色,引发了人们的极大关注。它集成了 35 亿参数基础模型和 66 亿参数模型的管线,实现了 AI 图像生成的飞跃式进步。

近日,最新版本的 Stable Diffusion XL 0.9(SDXL 0.9)已经发布,并与之前的模型相比,在图像和构图细节上有了重大突破。

Stable Diffusion XL 0.9 在与 Midjourney 的竞争中表现出色,引发了人们的极大关注。它集成了 35 亿参数基础模型和 66 亿参数模型的管线,实现了 AI 图像生成的飞跃式进步。

特别值得一提的是,为了生成更加逼真的图像并实现更大的深度和更高的分辨率(1024x1024),SDXL 0.9 使用了两个 CLIP 模型,其中包括当前最大的 OpenCLIP 模型(OpenCLIP ViT-G / 14)。

令人惊讶的是,即使在消费级显卡上,SDXL 0.9 也能够顺利运行。只需在 Win10/11 或 Linux 操作系统上拥有 16GB 内存和英伟达 RTX 20 系列显卡,显存需达到 8GB 以上。


Stable Diffusion XL 0.9 重磅发布,35 亿 + 66 亿双模型,AI 图像生成飞跃式进步

那 SDXL 0.9 和 SDXL Beta 究竟有何差异呢?用实测效果作比较,如下图所示:


Prompt:外星人在拉斯维加斯漫步


Stable Diffusion XL 0.9 重磅发布,35 亿 + 66 亿双模型,AI 图像生成飞跃式进步
(SDXL Beta 版)

Stable Diffusion XL 0.9 重磅发布,35 亿 + 66 亿双模型,AI 图像生成飞跃式进步

(SDXL 0.9)


Prompt:优胜美地国家公园的一只狼

Negative prompt:3d 渲染,光滑,塑料,模糊,颗粒感,低分辨率,动漫,过度饱和


Stable Diffusion XL 0.9 重磅发布,35 亿 + 66 亿双模型,AI 图像生成飞跃式进步

(SDXL Beta 版)

Stable Diffusion XL 0.9 重磅发布,35 亿 + 66 亿双模型,AI 图像生成飞跃式进步


(SDXL 0.9)

Prompt:手举咖啡

Negative prompt:3d 渲染,光滑,塑料,模糊,颗粒状,低分辨率,动漫


Stable Diffusion XL 0.9 重磅发布,35 亿 + 66 亿双模型,AI 图像生成飞跃式进步

(SDXL Beta 版)


Stable Diffusion XL 0.9 重磅发布,35 亿 + 66 亿双模型,AI 图像生成飞跃式进步

(SDXL 0.9)


据官方表示,SDXL 系列将提供超越基本文本 prompt 的一系列功能。

其中包括图像对图像的 prompt,用户可以输入一张图像来获取该图像的变异情况,以及内画和外画功能,前者可以重新构建图像的缺失部分,后者可以对现有图像进行无缝扩展。

SDXL 0.9 运行在两个 CLIP 模型上,其中之一是至今为止训练的最大的 OpenCLIP 模型(OpenCLIP ViT-G / 14),这大大增强了 0.9 版本的处理能力,能够创造出更深度、分辨率更高(1024x1024)的逼真图像。


Stable Diffusion XL 0.9 重磅发布,35 亿 + 66 亿双模型,AI 图像生成飞跃式进步


SDXL 团队不久将发布一篇研究博客,详细介绍该模型的规格和测试结果。


SD-XL 相比之前版本的改进如下:


使用较短的描述性 prompt 即可生成高质量图像

可以生成更贴合 prompt 的图像

图像中的人体结构更合理

与 v2.1 和 v1.5 版本 (程度较轻) 相比,SD-XL 生成的图片更符合大众审美

负面提示词(negative prompt)是可选项

生成的肖像图更逼真

图像中的文本更清晰


例如,Stable Diffusion 模型 v1 系列和 v2.1 版本并不支持在图片中生成可读文本。但 SD-XL 却支持,它生成的文本信息并不总是准确,但确实得到了巨大的提升。


Stable Diffusion XL 0.9 重磅发布,35 亿 + 66 亿双模型,AI 图像生成飞跃式进步

Stable Diffusion 是该公司帮助训练的免费开源文本到图像生成器,在 8 月份推出后,它改变了世界对于 AI 潜力的理解。


然而,Stability AI 也陷入了包括如何训练这些工具,以及从互联网上获取数据的版权诉讼之中的争议。虽然此前 CEO 曾陷入种种争议,但依然不影响 Stability AI 登上时代杂志,被时代杂志选为 100 家最有影响力的公司之一。


对于 Stability AI,时代杂志是这样介绍的:只要能够使用文字进行描述,Stability AI 就可以将其转化为图片。

相关文章

以专业换安心,贝壳杭州站万余名考生奔赴“搏学大考”

以专业换安心,贝壳杭州站万余名考生奔赴“搏学大考”

12月12-13日,第24届贝壳杭州站“搏学大考”开考,12个新经纪品牌10000余名经纪人奔赴这场“经纪人的高考”。“我的上千题,换您零问题”,提升经纪人的专业能力,给消费者提供...

Ghostwrite插件,AI聊天驱动的 AI 电子邮件写作助手

Ghostwrite插件,AI聊天驱动的 AI 电子邮件写作助手

Ghostwrite 插件是一款由 AI 聊天驱动的 AI 电子邮件写作助手,该插件支持使用人工智能来自动化写作过程,只需几句话即可立即回复、撰写和撰写电子邮件,让用户可以将更多时间花在重要的事情上。...

ChatGPT APP下载放缓、流量首现负增长,必应市场份额下滑,AI挑战搜索失败了?

ChatGPT APP下载放缓、流量首现负增长,必应市场份额下滑,AI挑战搜索失败了?

微软联合OpenAI的搜索业务在挑战谷歌的道路上遇到了困难,表现出了疲态。这对于一直致力于AI领域的微软来说,可谓不利的信号。美银分析师Justin Post在报告中指出,在最近几周内,ChatGPT...

加速本土化创新,熵基科技亮相东京建筑建材展

加速本土化创新,熵基科技亮相东京建筑建材展

 日前,2023日本东京国际建筑建材展览会(以下简称“2023东京建筑建材展”)在日本东京国际展览中心落下帷幕。作为多模态“计算机视觉与生物识别”(BioCV)领军企业,熵基科技以...

首款搭载 ChatGPT 的自行车问世,让你骑行不再孤单

首款搭载 ChatGPT 的自行车问世,让你骑行不再孤单

在 AI 技术的浪潮中,聊天机器人已成为一种热门趋势,甚至在电动自行车领域也开始出现。当我们骑行时,我们可以向自行车提问路线,或者与其探讨量子物理等各种话题。在过去,这可能被视为天方夜谭,但如今已成为...

创维百吋壁纸电视A7D正式预售,打造高端观影体验与家居美学

创维百吋壁纸电视A7D正式预售,打造高端观影体验与家居美学

 以大为美,是电视行业永恒的主题。对音画体验媲美影院级的极致追求,推动了100吋超大屏电视市场份额快速拉升。除此以外,大而精美的外观和如家居画廊般的艺术体验,也是高端人群不懈的追求...

发表评论    

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。