无需额外的训练或复杂的后处理,麻省理工学院团队的解决方案就可以实现与其他方法相当或更好的3D形状质量
(中国AI网 2024年12月06日)为虚拟现实等用例创建逼真的3D模型可能是一个繁琐的过程,涉及大量的手动试错。
尽管文生图AI模型可以通过文本提示生成逼真的2D图像来简化艺术过程,但所述模型并不是为生成3D形状而设计。为了弥补这一差距,名为Score Distillation的技术利用2D图像生成模型来创建3D形状。然而,其输出结果往往模糊不清或过于卡通化。
针对所述问题,麻省理工学院的研究人员探索了用于生成2D图像和3D形状的算法之间的关系和差异,并确定了低质量3D模型的根本原因。然后,他们精心优化了Score Distillation,以生成清晰的,高质量的3D形状,且质量接近于最佳模型生成的2D图像。
其他方法试图通过重新训练或微调生成式AI模型来解决这个问题,但这可能既昂贵又耗时。相比之下,无需额外的训练或复杂的后处理,麻省理工学院研究人员提出的解决方案可以实现与所述方法相当或更好的3D形状质量。
另外,通过确定问题的原因,研究人员提高了对Score Distillation和相关技术的数学理解,使得未来的研究能够进一步提高性能。
电气工程和计算机科学研究生阿特姆·卢科亚诺夫(Artem Lukoianov)是相关论文的主要作者,他说道:“现在我们知道我们应该朝哪个方向前进,这使我们能够找到更快、更高质量的更有效解决方案。”
从2D图像到3D形状
DALL-E等扩散模型是一种可以从随机噪点中生成逼真图像的生成式AI模型。为了训练所述模型,研究人员向图像中添加噪点,然后教导模型反转过程并去除噪点。模型使用这种习得的“去噪”过程来根据用户的文本提示创建图像。
但扩散模型在直接生成逼真的3D形状方面表现不佳,因为没有足够的3D数据来训练它们。为了解决这个问题,有研究人员在2022年开发了一种名为Score Distillation Sampling(SDS)的技术。其中,它主要使用预训练的扩散模型将2D图像组合成3D表示。
所述技术包括从随机的3D表示开始,从随机的camera角度渲染目标的2D视图,向图像添加噪点,用扩散模型去噪,然后优化随机的3D表示,使其与去噪的图像相匹配。重复步骤,直到生成所需的3D对象。
然而,以这种方式生成的3D形状往往看起来模糊或过饱和。
麻省理工学院的研究人员探索了SDS的步骤,并确定了形成关键过程部分的公式与2D扩散模型中的对应公式之间的不匹配。公式告诉模型如何通过一步一步地添加和去除噪点来更新随机表示,使其看起来更像期望的图像。
由于这个公式的一部分涉及到一个过于复杂而无法有效求解的方程,SDS在每一步都用随机采样的噪点代替它。麻省理工学院的研究人员发现,这种噪点会导致模糊或卡通化的3D形状。
一个近似的答案
研究人员没有试图精确地解决这个繁琐的公式,而是测试了近似技术。他们的近似技术不是随机采样噪点项,而是从当前3D形状渲染中推断缺失项。
卢科亚诺夫解释道:“通过这样做,正如论文中分析预测的那样,它产生了看起来清晰逼真的3D形状。”
另外,研究人员提高了图像渲染的分辨率,并调整了特定的模型参数,以进一步提高3D形状的质量。最后,他们能够使用现成的,预训练的图像扩散模型来创建逼真的3D形状,并且无需昂贵的再训练。
相关论文:Score Distillation via Reparametrized DDIM
值得一提的是,这项研究获得了丰田研究所、美国国家科学基金会、新加坡国防科技局、美国先进情报研究计划局、亚马逊科学中心、IBM、美国陆军研究办公室、CSAIL未来数据计划、纬创公司和麻省理工学院-IBM沃森人工智能实验室资助。