谷歌研究团队最新推出的 ReCapture 技术,正在颠覆传统视频编辑的玩法。这项创新让普通用户也能轻松实现专业级的摄像机运动调整,为已拍摄的视频重新设计镜头语言。
传统视频后期制作中,改变已拍摄视频的镜头角度一直是个技术难题。现有方案在处理不同类型的视频内容时,往往难以同时保持复杂的运镜效果和画面细节。ReCapture 另辟蹊径,没有采用传统的4D 中间表示方法,而是巧妙利用生成式视频模型中储存的运动知识,通过 Stable Video Diffusion 将任务重新定义为视频到视频的转换过程。
这套系统采用两阶段工作流程。第一阶段生成"锚定视频",也就是具有新机位的初始输出版本。这一阶段可以通过 CAT3D 等扩散模型创建多角度视频,或者通过逐帧深度估计和点云渲染来实现。虽然这个版本可能存在一些时序不连贯和视觉瑕疵,但为第二阶段奠定了基础。
第二阶段应用带遮罩的视频微调,利用在现有素材上训练的生成式视频模型来创建真实的运动效果和时序变化。系统引入了时序 LoRA(低秩适应)层来优化模型,使其能够理解和复制锚定视频的具体动态特征,无需重新训练整个模型。同时,空间 LoRA 层确保了画面细节和内容与新的摄像机运动保持一致。这使得生成式视频模型能够在保持原始视频特征运动的同时,完成变焦、平移和倾斜等操作。
尽管 ReCapture 在用户友好的视频处理方面取得了重要进展,但目前仍处于研究阶段,距离商业化应用还有一段距离。值得注意的是,虽然谷歌拥有众多视频 AI 项目,但尚未将其推向市场,其中 Veo 项目可能最接近商用。同样,Meta 最近推出的 Movie-Gen 模型以及 OpenAI 年初发布的 Sora 也都未实现商业化。目前,视频 AI 市场主要由 Runway 等创业公司引领,该公司已于去年夏天推出了最新的 Gen-3Alpha 模型。