Stability AI近日推出了其最新的深度学习文本到图像生成模型 ——Stable Diffusion3.5。这一版本包括三种改进的开源模型,旨在满足不同用户的需求,包括研究人员、企业客户和爱好者。

其中,Stable Diffusion3.5Large 是整个系列中最强大的模型,参数高达81亿。该模型以其卓越的图像质量和对提示的高度响应能力,成为专业用户的理想选择,能够生成分辨率达到1兆像素的高质量图像。

此外,Stable Diffusion3.5Large Turbo 是 Stable Diffusion3.5Large 的简化版。它在生成高质量图像的同时,极大地提升了速度,仅需4个步骤便能完成图像生成,相比前一版本更加高效,适合需要快速创作的用户。

另一款新模型是 Stable Diffusion3.5Medium,它具有25亿的参数。该模型采用了改进的 MMDiT-X 架构和训练方法,设计上能够 “开箱即用”,即使在消费级硬件上也能顺畅运行。它在图像生成质量和易于定制之间达成了良好的平衡,可以生成0.25至2兆像素的图像。

这次发布的背景是,在6月发布的 Stable Diffusion3Medium 未能达到预期之后,Stability AI 决定推出一个更具变革性的解决方案。公司表示,他们希望通过这一更新重新赢得市场竞争力,以应对 OpenAI 的 DALL-E 和 Midjourney 等平台的挑战。

新模型的一个重要技术创新是引入了查询 - 键归一化(Query-Key Normalization)技术。这一创新增强了模型的定制性和对提示的响应能力,用户可以通过明确的提示获得更一致的结果,同时在使用更宽泛的提示时也能获得更丰富的图像解释。

Stable Diffusion3.5系列模型将在Stability AI 的社区许可证下发布,允许用户免费进行非商业使用。同时,年收入低于100万美元的实体也可以免费进行商业使用,超过此收入的用户则需申请企业许可证。

所有模型及其自托管所需的权重将在 Hugging Face 和Stability AI 的 API 上提供。此外,预计在未来几天内将推出提供高级图像自定义选项的 ControlNets 功能。

官方入口:

https://stability.ai/stable-image

三个版本Hugging Face入口:

https://huggingface.co/stabilityai/stable-diffusion-3.5-large

https://huggingface.co/stabilityai/stable-diffusion-3.5-large-turbo

https://huggingface.co/stabilityai/stable-diffusion-3.5-medium

划重点:

🌟 新推出的 Stable Diffusion3.5提供三种模型版本,适应不同用户需求。

⚡ Stable Diffusion3.5Large Turbo 具备更快的图像生成速度,适合快速创作。

📈 新模型引入查询 - 键归一化技术,提高了定制性和响应能力。