阿里巴巴通义实验室最新研究表明,现有的文生图 Diffusion Transformer 模型其实已经具备生成多张具有特定关系图像的能力,只需稍加“点拨”就能“融会贯通”,生成高质量的多图集。

传统的 Diffusion 模型更像是一个“死记硬背”的学生,需要用海量数据训练,才能生成高质量的图像。

而有了 IC-LoRA 加持,它就变成了“触类旁通”的学霸,只需要少量样本就能学会新技能。

这背后的原理说起来也不复杂,研究人员发现,现有的文生图 Diffusion 模型其实已经具备一定的“上下文学习”能力,只是需要一些技巧来激活它。

他们做了几个实验,直接用现成的文生图模型来生成多张图像,结果发现,模型确实能理解图片之间的关系,并生成具有一致性的图像集,虽然还有些小瑕疵,但已经很可观了。

于是,他们就设计了一套简单有效的流程,来唤醒 Diffusion 模型的“上下文学习”能力:

把多张图片拼接成一张大图,而不是像以前那样把 token 拼接起来,这样做相当于在 Diffusion 模型里直接处理图像,而不是抽象的 token。

把每张图片的文字描述合并成一个长长的 prompt,这样模型就能同时处理多张图片的信息,并理解它们之间的关系。

例如:

提示:“在这个冒险的三张图像序列中,[IMAGE1] Ethan,一位勇敢的考古学家,外表粗犷,在一个阳光明媚的沙漠挖掘现场发现了一张古老的地图,当他刷去沙子时,他的兴奋显而易见,[IMAGE2] 在一个充满活力的外国城市过渡到一个熙熙攘攘的市场,Ethan 在那里与当地商人谈判并为他的任务收集必需品, [图片3]最后,Ethan 跋涉穿过浓密、薄雾笼罩的丛林,高耸的树木和异国情调的野生动物强调了他旅程中的挑战和神秘之处。

提示:“在一个迷人的韧性故事中,[IMAGE1] 我们看到 Lena,一个坚定的女孩,在贫瘠的田野上播种,她的脸上充满了决心,[IMAGE2] 过渡到她培育植物,每天给它们浇水,她的努力慢慢见效,[IMAGE3] 最终在一个充满生机的郁郁葱葱的花园中结束,Lena 自豪地站在她的创造物中,象征着成长和毅力。

用少量高质量的图片集对模型进行微调,而不是像以前那样用几十万张图片进行大规模训练。这样做既能节省算力,又能保留模型原有的知识和“上下文学习”能力。

最终的 IC-LoRA 模型非常简单,不需要对原有的文生图模型进行任何修改,只需要根据具体的任务调整少量的训练数据就行了。

比如,你想让 Stable Diffusion 学会生成漫画风格的图像,只需要用几张漫画图片训练一下 IC-LoRA 模型,它就能生成各种你想要的漫画了,简直是“一点就通”。

提示:“这对图像呈现了从写实肖像到俏皮插图的转变,捕捉了细节和艺术天赋;[IMAGE1] 照片中,一名女子站在熙熙攘攘的市场中,戴着宽边帽,身穿飘逸的波西米亚风装,手里拿着皮质斜挎包;[IMAGE2] 插画版夸大了她的配饰和特征,波西米亚风格的连衣裙以充满活力的图案和大胆的色彩描绘,而背景则被简化为抽象的市场摊位,给场景带来生动活泼的感觉。

为了让 IC-LoRA 更强大,研究人员还加入了图像条件生成功能,简单来说就是根据已有的图片生成新的图片,比如根据一张人物照片生成不同表情、姿势的图片,或者根据一张风景照生成不同天气、光照的图片。

例如:

提示:“这组四张图片捕捉了一位老妇人照料她的花园的宁静时刻。[图片1]她跪在一床盛开的花坛旁,双手轻轻修剪一丛玫瑰花,柔和的晨光照亮了她银色的头发;[图片2] 她站在喷壶前,在培育植物时脸色平静祥和;[IMAGE3] 特写镜头显示,当她看着手中含苞待放的花朵时,她露出满足的笑容,自豪和喜悦之情显而易见;[IMAGE4] 她坐在一张小长凳上,在她的花园里喝茶,周围环绕着她辛勤工作的鲜艳色彩。

提示:“这组两张图片说明了沙尘暴对体育场景的变革性影响;[图1] 在郁郁葱葱的绿色场地上,一支美式橄榄球队的焦点是一名球员拿着足球,在明亮的阳光下拍摄,[图2] 切换到同一名球员,他被戏剧性的沙尘和闪电效果所吞没,灰尘在他周围盘旋,在昏暗、黑暗的场地上营造出猛烈的沙尘暴效果。

测试结果表明,IC-LoRA 在各种图像生成任务上都取得了高质量的结果,无论是生成人物肖像、字体设计、家居装饰,还是生成电影故事板、视觉特效,它都能轻松应对,简直是“十八般武艺样样精通”。

IC-LoRA 的出现,对于 AI 图像生成领域来说,绝对是一个里程碑式的进步。它大大降低了 AI 模型的训练成本,让更多人能够参与到 AI 创作中来。

未来,随着 IC-LoRA 的进一步发展,我们有理由相信,AI 将会成为每个人都触手可及的创作工具,让每个人都能成为艺术家。

项目地址:https://ali-vilab.github.io/In-Context-LoRA-Page/