在计算效率和理想的图像分辨率和质量之间取得了平衡

中国AI网 2024年12月12日)面部表情在人类非语言交流中至关重要,并已在虚拟现实等各种计算机视觉领域得到了应用。尽管取得了进步,但大多数面部表情生成模型都遇到了诸如低分辨率,质量差以及缺乏背景细节等挑战。

在一项研究中中,摩洛哥穆罕默德五世大学团队介绍了一种基于扩散的新方法FacEnhance,并旨在解决现有低分辨率面部表情生成模型中的约束。

FacEnhance可以将低分辨率面部表情视频(64x64像素)增强到更高分辨率(192x192像素),同时结合背景细节并提高整体质量。利用扩散框架内的条件去噪,在无背景低分辨率视频和单一中性表情高分辨率图像的指导下,FacEnhance生成一个结合了来自中性图像背景的个人在低分辨率视频中表现的面部表情的视频。

通过补充轻量级的低分辨率模型,FacEnhance在计算效率和理想的图像分辨率和质量之间取得了平衡。在面部表情数据库进行的大量实验表明,FacEnhance在保持内容和身份一致性的同时,可以将低分辨率模型输出提高到最先进的质量。

研究员提出新动态二维XR面部表情增强框架,实现更高分辨率细节  第1张

面部表情和人类行为在内的非语言交流在人际交往中占有重要地位。业界对这种交流形式的分析进行了广泛的研究,为虚拟现等各个应用领域提供了全新可能性。随着生成模型的出现,静态二维面部表情生成已经取得了显著的成功,然而,它不能捕获面部表情的动态特性,因为面部表情涉及连续的、平滑的运动,而不是静态的姿势。

动态面部表情生成由于包含时间维度,所以研究较少,需要双重关注空间和时间理解,尊重时空一致性,并通过所有视频帧学习身份保存。

研究人员已经开发了多种面部生成策略。然而,最初的测试突出了常见的限制,例如低质量和低分辨率的结果(32x32或64x64像素),背景生成困难,导致背景失真或缺失,以及合成视频中缺乏头发、颈部和服装等重要细节。

为了解决相关限制,最近的方法旨在利用成功的图像生成器,如StyleGAN。相关方法包括学习如何操纵StyleGAN的嵌入空间来生成人脸图像。不过,由于生成过程是独立于帧执行,所以它们在内容一致性方面存在挑战。

另一组解决低分辨率和质量问题的是基于扩散的模型。它们在图像合成中表现出了显著的功效,通过采用一系列扩散细化步骤在捕获复杂数据分布方面表现出色。基于扩散的模型在面部表情生成方面取得了有趣的结果。然而,在涉及空间和时间维度的视频处理背景下,扩散模型的训练和推理可能需要大量的计算和耗时。由于在视频扩散中使用3D卷积,这一点尤其明显,进一步增加了计算需求和内存消耗。因此,训练和推理过程变得耗费时间和资源。

针对低分辨率和低质量的面部表情生成方法所面临的持续挑战,摩洛哥穆罕默德五世大学引入了一种全新的基于扩散的方法FacEnhance,目标是将低分辨率高效方法视频提高到最先进的水平。

具体来说,所提出的模型解决了有效模型的不足,如低分辨率、低质量和缺乏背景细节。它对生成的视频进行操作,以实现面部超分辨率、质量增强和背景/细节的添加。模型以低分辨率的个人面部表情视频(64x64)和同一个人的高分辨率中性图像(192x192)作为输入,将面部表情与背景和身份细节相结合,从而生成(192x192)像素的视频,并将低分辨率视频中的面部表情与高分辨率图像中的身份细节和背景相结合。

团队表示,所提出的模型理论上可以生成可能达到更高分辨率的视频。但由于计算能力的限制,他们限制在(192x192)分辨率。

模型通过在空间上增强低分辨率面部表情生成模型的结果,对现有的低分辨率面部表情生成模型进行了补充。通过将模型应用于低分辨率生成的视频,他们实现了效率和质量之间的平衡。

研究员提出新动态二维XR面部表情增强框架,实现更高分辨率细节  第2张

在研究中,他们利用面部表情生成模型制作黑背景低分辨率面部表情视频。然后,模型对视频进行了增强,并产生了质量提高并集成了背景细节的(192x192)面部表情视频。两种模型的协同作用确保了高质量的面部表情生成,不需要过多的计算需求。

研究人员在广泛认可的面部表情数据库对模型进行了定量和定性的广泛评估。结果表明,所述方法在保持内容和身份一致性的同时,可以有效地将低分辨率面部视频提高到最先进的质量。

相关论文:FacEnhance: Facial Expression Enhancing with Recurrent DDPM

总的来说,团队提出了一种新的动态二维面部表情增强框架,以将低分辨率(64x64)无背景的面部视频转换为高分辨率(192x192),而且增强了质量并添加了背景细节。利用低分辨率表情生成模型生成的数据来指导扩散模型,所述方法成功地生成了质量提高的视频,同时保留了原始的运动特征。

实验结果显示了所提出的增强方法的有效性,证明了其与最先进的技术的竞争力。尽管取得了成功,但他们承认存在一定的局限性,特别是在增强过程中可能出现偶尔的失败和扭曲。另外,所述方法的计算需求目前抑制实时适用性。为了应对挑战,未来的研究将侧重于通过先进的数据增强技术将模型暴露于更多样化的数据,从而最大限度地减少偶尔的故障和扭曲。另外,团队的目标是开发更有效的扩散模型方法,目标是实时适用性并将范围扩展到更高的分辨率。