DeepMind项目MegaSaM ：输入普通视频即可预估相机视角和景深，构建视频场景

近日，谷歌深度学习团队和多所大学的研究人员联合发布了一项名为 “MegaSaM” 的新系统，该系统能够从普通的动态视频中快速、准确地估计相机参数和深度图。这一技术的问世，将为我们在日常生活中录制的视频带来更多的可能性，特别是在动态场景的捕捉与分析方面。

传统的运动结构重建（Structure from Motion，SfM）和单目同步定位与地图构建(SLAM)技术，通常需要输入静态场景的视频，并且对视差的要求较高。面对动态场景，这些方法的表现往往不尽如人意，因为在缺乏静态背景的情况下，算法容易出现错误。尽管近年来一些基于神经网络的方法试图解决这一问题，但这些方法往往计算开销巨大，且在动态视频中，尤其是当摄像机运动不受控制或者视场未知时，稳定性欠佳。

MegaSaM 的出现，改变了这一局面。研究团队通过对深度视觉 SLAM 框架进行精心的修改，使其能够适应复杂的动态场景，尤其是在摄像机路径不受限制的情况下。经过一系列的实验，研究人员发现 MegaSaM 在相机姿态和深度估计方面，显著优于以往的相关技术，并且在运行时间上也表现出色，甚至可以与某些方法相媲美。

该系统的强大功能，使其能够处理几乎任何视频，包括那些在拍摄过程中可能存在剧烈运动或者场景动态的随意录像。MegaSaM 在约0.7帧每秒的速度下，处理源视频的结果，展现出其卓越的性能。研究团队还在他们的画廊中展示了更多处理结果，以证明其在实际应用中的有效性。

这一研究成果不仅为计算机视觉领域带来了新鲜血液，也为广大用户在日常生活中的视频处理提供了新的可能性，期待未来能够在更多场景中看到 MegaSaM 的身影。

项目入口：https://mega-sam.github.io/#demo