文生图卷起来了！智谱开源图像生成模型CogView3 生成速度比SDXL快10倍！

近日，智谱AI向公众开源了其最新力作——CogView3及其升级版CogView-3Plus-3B，为文生图领域注入了新的活力。

CogView3的亮相无疑是一个重要里程碑。作为首个在文本到图像生成领域实现中继扩散的模型，它采用了独特的级联扩散方法。这种创新性的approach首先生成低分辨率图像，随后通过基于中继的超分辨率技术来完成最终输出。这不仅大幅提升了生成图像的质量，还显著降低了训练和推理的成本。

最令人瞩目的是CogView3的性能表现。根据人类评价结果，CogView3在生成质量上超越了当前最先进的开源文本到图像模型SDXL，胜率高达77.0%。更令人惊叹的是，它仅用了SDXL约一半的推理时间就达到了这一成就。如果使用CogView3的精简版本，在仅占用SDXL十分之一推理时间的情况下，依然能够保持可比的性能水平。这一突破性进展无疑为高效率、高质量的图像生成开辟了新的可能。

与此同时，智谱AI还推出了CogView-3Plus-3B，这是一个基于DiT（Diffusion Transformers）框架的图像模型。虽然其具体测试结果尚未公布，但业界对其潜力充满期待。CogView-3Plus-3B在CogView3的基础上进行了进一步优化，引入了Zero-SNR扩散噪声调度和联合文本-图像注意力机制等先进技术。这些改进不仅降低了训练和推理成本，还保持了强大的图像生成能力。

值得一提的是，CogView-3Plus-3B支持的图像分辨率范围十分广泛，从512x512到2048x2048不等，这极大地增加了其应用场景的灵活性。无论是日常使用还是专业创作，都能找到适合的分辨率选项。

为了帮助用户更好地利用这些模型，智谱AI还提供了实用的建议和工具。他们建议用户通过大型语言模型（LLM）来优化提示词，这可以显著提升生成图像的质量。同时，智谱AI还提供了示例脚本，大大降低了用户的使用门槛。

项目地址：https://github.com/THUDM/CogView3