仅依赖于事件
(中国AI网 2024年10月24日)三维人体捕获是计算机视觉领域的重要课题之一,在虚拟现实等领域有着广泛的应用。然而,传统的帧摄像头受到时间分辨率和动态范围的限制,这在现实世界的应用设置中施加了限制。事件摄像头具有高时间分辨率和高动态范围的优点,但需要发展基于事件的方法来处理具有不同特征的数据。
针对这个问题,日本庆应义塾大学提出了一种基于事件的三维姿态估计和人体网格恢复方法。先前基于事件的人体网格恢复研究需要帧(图像)以及事件数据,而团队提出的方法仅依赖于事件。
它通过在静止的身体周围移动事件摄像头来雕刻3D体素,通过衰减光线重建人体姿势和网格,并拟合统计身体模型来保留高频细节。实验结果表明,所述方法在姿态和身体网格的估计精度上都优于传统的基于帧的方法。
从摄像头中估计人体姿势是计算机视觉的关键挑战之一,并在虚拟现实等领域有着广泛的应用。近年来,人们提出并发展了许多基于深度神经网络的姿态估计方法。
但是,这种方法在应用场景中有局限性,继承了帧摄像头的本质约束:时间分辨率不足以满足运动等激烈运动(即运动模糊),并且必须调整快门速度才能在黑暗场景中获得数据(即有限的动态范围)。
为了应对所述挑战,事件摄像头受到了行业的关注。与所有像素同步记录数据的传统帧摄像头不同,事件摄像头仅对亮度变化进行异步响应,从而实现高时间分辨率(µ秒级)和高动态范围。
然而,由于事件摄像头从帧中产生不同的数据,所以开发基于事件的方法来使用事件摄像头进行姿态估计和网格恢复至关重要。
以往使用事件摄像头进行人体网格重建的研究需要帧图像作为补充信息,无法单独通过事件进行重建。这是因为如果摄像头是静态的(即没有观察到事件数据),事件摄像头不会为身体的静止部分生成数据。帧摄像头更适合捕捉这样的静态场景信息,
不过,使用帧图像是有问题的,因为它施加了帧的限制(例如动态范围,运动模糊)。表1总结了现有的基于框架和基于事件的方法。
在一项研究中,日本庆应义塾大学提出了一种3D人体扫描方法,它能够仅使用事件数据估计静止人体的3D体素表示、网格、关节和身体模型参数。所提出的方法可以通过移动摄像头本身来获取静态身体的数据。
另外,研究人员提出了一种射线衰减,通过扩展现有的基于事件的体素雕刻方法来更好地保留高频细节信息。最后,通过拟合统计人体模型,如SMPL和SKEL,可以从体素中准确估计人体网格、身体参数和关节位置。
总的来说,团队提出了一种使用移动事件摄像头来从事件流中估计静态人体姿势和网格的方法。所述方法将经典的人体统计模型的雕刻与拟合思想与射线衰减相结合,保留了人体的精细结构,并利用了事件数据的高时间信息。
实验结果表明:
基于事件的方法在姿态和网格估计方面都比基于帧的方法具有更好的精度
射线衰减对高频细节的网格恢复有效
高时间分辨率有助于精确雕刻
对运动模糊场景具有鲁棒性。
不过,团队坦诚方法具有局限性,因为它需要摄像头的运动轨迹,因此在实际应用中需要进行自运动估计。另外,分类使用监督学习,而其他步骤是优化方法。所以对于未包含在训练数据中的纹理或不同姿势,分类性能可能会下降。同时,所提出的方法可能会遗漏一定的精细结构,而这可以归因于雕刻的局限性。
相关论文:3D Human Scan With A Moving Event Camera
对于这项研究,团队希望它将作为一个基线,并在未来扩展到各种有趣的方向。