苹果开源Depth Pro，0.3秒即可从2D图像生成高分辨率深度图

同类系统中最快，最准确的系统之一

Vision Pro QQ群交流：653565822

（中国AI网 2024年10月05日）苹果日前发布了一个全新的模型Depth Pro，而它可以显著提高机器感知深度的方式，并可能会改变AR等一系列不同的行业。

据悉，名为Depth Pro的系统能够在几分之一秒内从单个2D图像生成详细的3D深度图，无需依赖传统上进行这类操作所需的camera数据。

苹果开源Depth Pro，0.3秒即可从2D图像生成高分辨率深度图第1张

单目深度估计是一种仅使用一张图像推断深度的过程，而苹果新发布的Depth Pro是单目深度估计领域的一次重大飞跃，

在实时空间感知是关键的领域，这可能会带来深远的影响，包括空间计算。团队将Depth Pro描述为同类系统中最快，最准确的系统之一。

单目深度估计一直是一项具有挑战性的任务，需要多个图像或像焦距这样的元数据来准确测量深度。

但Depth Pro绕过了相关要求，在标准GPU上仅需0.3秒即可生成高分辨率深度图。模型可以创建225万像素的深度图，图像具有出色的清晰度，甚至可以捕获到其他方法经常忽略的微小细节，如头发和植被。

研究人员指出：“模型能够同时处理图像的整体背景和更精细的细节，与之前速度较慢、精度较低的模型相比，这是一个巨大的飞跃。”

苹果开源Depth Pro，0.3秒即可从2D图像生成高分辨率深度图第2张

真正令Depth Pro与众不同的是它能够估计相对和绝对深度，这种能力称为“度量深度”。

这意味着模型可以提供真实世界的测量，而这对于AR等应用至关重要，因为虚拟对象需要放置在物理空间中的精确位置。

另外，Depth Pro可以生成具有绝对比例尺的公制深度图，不需要对特定领域的数据集进行广泛的训练就能做出准确的预测，亦即zero-shot learning，这使得模型具有很强的通用性。它可以应用于广泛的图像，不需要深度估计模型中通常要用到的camera特定数据。

如果你想亲身体验，这个页面提供了实况演示。

研究人员指出：“理想情况下，这种方法应该在zero-shot状态下生成公制深度图，以准确地再现物体形状、场景布局和绝对比例。”

他们强调，模型有可能减少与训练更传统人工智能模型相关的时间和成本。

值得一提的是，深度估计中最棘手的挑战之一是处理所谓的“飞行像素”：由于深度映射的错误，像素看起来像是漂浮在半空中。Depth Pro解决了这个问题，使其对3D重建和虚拟环境等应用程序特别有效。

另外，Depth Pro在边界追踪方面表现出色，在清晰描绘对象及其边缘方面优于以前的模型。研究人员声称，它相较于其他系统“边界精度倍增”。

相关论文：Depth Pro: Sharp Monocular Metric Depth in Less Than a Second

苹果已经将Depth Pro开源，具体请访问GitHub。