谷歌 DeepMind 联合麻省理工学院(MIT)近日发布了一项重大研究成果。研究团队开发的新型自回归模型"Fluid"在文本到图像生成领域取得了突破性进展,该模型在扩展到105亿参数规模后,性能表现出色。

这项研究颠覆了业界普遍认知。此前,自回归模型虽然在语言处理领域占据主导地位,但在图像生成方面一直被认为不如 Stable Diffusion 和 Google Imagen3等扩散模型。研究人员通过创新性地引入两个关键设计因素,显著提升了自回归模型的性能和可扩展性:采用连续型词元替代离散型词元,以及引入随机生成顺序取代固定顺序。

在图像信息处理方面,连续型词元的优势明显。传统的离散型词元会将图像区域编码为有限词汇表中的代码,这种方式inevitably导致信息损失,即使是大型模型也难以准确生成对称眼睛等细节特征。而连续型词元能够保存更精确的信息,显著提升图像重建质量。

研究团队还对图像生成顺序进行了创新。传统自回归模型通常采用从左到右、从上到下的固定顺序生成图像。研究者尝试了随机顺序方法,允许模型在每个步骤中预测任意位置的多个像素。这种方法在需要良好把握整体图像结构的任务中表现突出,在衡量文本与生成图像匹配度的 GenEval 基准测试中取得显著优势。

Fluid 模型的实际表现印证了研究的价值。在扩展到105亿参数规模后,Fluid 在多个重要基准测试中均超越现有模型。值得注意的是,仅有3.69亿参数的小型 Fluid 模型就达到了200亿参数量级的 Parti 模型在 MS-COCO 数据集上的 FID 评分(7.23)。

这一研究成果表明,像 Fluid 这样的自回归模型很可能成为扩散模型的有力替代者。与需要多次正向和反向传递的扩散模型相比,Fluid 仅需单次传递即可生成图像,这种效率优势在模型进一步扩展后将更加明显。