同类系统中最快,最准确的系统之一
Vision Pro QQ群交流:653565822(中国AI网 2024年10月05日)苹果日前发布了一个全新的模型Depth Pro,而它可以显著提高机器感知深度的方式,并可能会改变AR等一系列不同的行业。
据悉,名为Depth Pro的系统能够在几分之一秒内从单个2D图像生成详细的3D深度图,无需依赖传统上进行这类操作所需的camera数据。
单目深度估计是一种仅使用一张图像推断深度的过程,而苹果新发布的Depth Pro是单目深度估计领域的一次重大飞跃,
在实时空间感知是关键的领域,这可能会带来深远的影响,包括空间计算。团队将Depth Pro描述为同类系统中最快,最准确的系统之一。
单目深度估计一直是一项具有挑战性的任务,需要多个图像或像焦距这样的元数据来准确测量深度。
但Depth Pro绕过了相关要求,在标准GPU上仅需0.3秒即可生成高分辨率深度图。模型可以创建225万像素的深度图,图像具有出色的清晰度,甚至可以捕获到其他方法经常忽略的微小细节,如头发和植被。
研究人员指出:“模型能够同时处理图像的整体背景和更精细的细节,与之前速度较慢、精度较低的模型相比,这是一个巨大的飞跃。”
真正令Depth Pro与众不同的是它能够估计相对和绝对深度,这种能力称为“度量深度”。
这意味着模型可以提供真实世界的测量,而这对于AR等应用至关重要,因为虚拟对象需要放置在物理空间中的精确位置。
另外,Depth Pro可以生成具有绝对比例尺的公制深度图,不需要对特定领域的数据集进行广泛的训练就能做出准确的预测,亦即zero-shot learning,这使得模型具有很强的通用性。它可以应用于广泛的图像,不需要深度估计模型中通常要用到的camera特定数据。
如果你想亲身体验,这个页面提供了实况演示。
研究人员指出:“理想情况下,这种方法应该在zero-shot状态下生成公制深度图,以准确地再现物体形状、场景布局和绝对比例。”
他们强调,模型有可能减少与训练更传统人工智能模型相关的时间和成本。
值得一提的是,深度估计中最棘手的挑战之一是处理所谓的“飞行像素”:由于深度映射的错误,像素看起来像是漂浮在半空中。Depth Pro解决了这个问题,使其对3D重建和虚拟环境等应用程序特别有效。
另外,Depth Pro在边界追踪方面表现出色,在清晰描绘对象及其边缘方面优于以前的模型。研究人员声称,它相较于其他系统“边界精度倍增”。
相关论文:Depth Pro: Sharp Monocular Metric Depth in Less Than a Second
苹果已经将Depth Pro开源,具体请访问GitHub。