在效率和准确性方面都优于以前的方法

中国AI网 2025年02月21日)近年来,三维手姿估计方法在虚拟现实等领域的广泛应用引起了人们的广泛关注。相比之下,手部检测管道存在明显的空白,而这对构建有效的多手重建系统提出了重大挑战。

在一项研究中,英国帝国理工学院和上海交通大学团队提出了一种数据驱动的管道,以用于in-the-wild高效的多手重建。所述管道由两个部分组成:实时全卷积手部定位和高保真transformer-based三维手部重建模型。为了解决以往方法的局限性并建立一个鲁棒且稳定的检测网络,团队引入了一个大型数据集,其中包含超过2M张具有不同照明,照明和遮挡条件的in-the-wild手部图像。

在流行的2D和3D基准测试中,所提出方法在效率和准确性方面都优于以前的方法。

中外团队分享面向复杂场景的端到端多手实时三维定位与重建方法  第1张

从虚拟现实到人类行为识别,手部检测和重建具有广泛的应用,并一直是一个长期研究的问题。鉴于手部外观和清晰度的巨大变化,以及手部交互中通常存在的严重遮挡和运动模糊,手部姿势估计的任务相当具有挑战性。多年来,业界已经提出了数种方法来处理3D手部姿势估计。

然而,尽管产生了可信的结果,但它们主要集中在包含固定数量的手的图像,不能泛化到in-the-wild图像。在与三维人体和人脸重建密切相关的领域,最先进的方法采用基于高性能检测模型的自下而上管道,模型最初将人体和人脸定位在图像内,使其能够泛化到in-the-wild图像。尽管已经提出了一系列的方法来解决人体和人脸检测的任务,但在实时手部检测方法方面却明显缺乏。

流行的手部检测和定位方法在检测多只手和具有挑战性的姿势方面明显失败,而最近的方法尽管产生了合理的结果,但无法实时操作。由于缺乏准确的手部检测框架,英国帝国理工学院和上海交通大学团队提出了一种鲁棒的单状态无锚点检测器,其运行速度超过每秒100帧(fps)。

正如实验证明,鲁棒检测可以增强更稳定的4D重建并克服抖动伪影,而这是目前基于3D帧的姿态估计方法的主要限制之一。相对于尚未开发的手部检测和定位,3D手部姿态估计得到了更多的关注。最初的3D姿态重建方法主要是基于卷积的主干来处理和提取图像特征。随着transformer的成功,数种方法为利用transformer架构扩大3D人体和手部恢复铺平了道路。

最近,有人使用在大规模数据集训练的简单而强大的框架展示了ViT的有效性。然而,从单个图像中回归手的参数会导致不好的对齐和不正确的姿势。目前,旨在实现更好图像对齐的方法依赖于次优解决方案。

为了解决这个问题,研究人员提出了一种高保真的3D姿态估计方法,将3D手部重建分为两个阶段。

特别是,解码器首先预测一个粗略的手部估计,用于从细化模块中提取多尺度图像对齐特征。通过利用粗略的手部估计,可以提取有意义的空间特征,从而在FreiHand和HO3D基准数据集获得更好的图像对齐和最先进的性能。

中外团队分享面向复杂场景的端到端多手实时三维定位与重建方法  第2张

另外,与直接回归3D顶点的顶点回归方法相比,所述方法预测了MANO参数,确保了可解释和合理的手姿。

相关论文:WiLoR: End-to-end 3D Hand Localization and Reconstruction in-the-wild

总的来说,研究人员提出了一个全栈手部检测和3D姿态估计框架。使用大规模in-the-wild数据集,团队训练了一个轻量级但高精度的手检测器模型,可在超过110 FPS的速度下稳健地检测不同遮挡和光照下的手。

另外,团队提出了一个高保真的3D手部姿态估计模型,克服了以前方法的局限性,减轻了以前方法的对齐问题。在一系列实验中,团队证明了所提出方法可以在两个基准数据集上优于先前的最先进方法,并在具有挑战性的情况下显示出稳健的性能。