ReCapture 谷歌和新加坡国立大学共同推出的视频处理技术

ReCapture是什么

ReCapture是谷歌和新加坡国立大学推出的视频处理技术，能从单一用户提供的视频中生成具有新相机轨迹的新视频。ReCapture用多视图扩散模型或基于深度的点云渲染生成带有新相机轨迹的噪声锚视频，采用掩码视频微调技术，将锚视频转换成干净、时间一致的重新角度化视频，保留原始视频中的场景运动，从新角度展现场景。ReCapture能合理地想象出原始视频中不可见的场景部分。

ReCapture的主要功能生成新视角视频：从一个用户提供的源视频中生成具有全新相机轨迹的视频，支持从不同角度观察同一场景。保留原有场景运动：在生成新视角视频的同时，保留源视频中的所有现有场景运动。电影级相机运动：模拟电影级别的相机运动，如缩放、平移和倾斜，增强视频的视觉效果。场景补全：合理地想象并补全源视频中不可见的场景部分，增强视频内容的完整性。提高视频质量：基于掩码视频微调技术，将带有噪声的锚视频转换成干净、时间一致的高质量视频。ReCapture的技术原理锚视频生成：深度估计与点云渲染：基于逐帧深度估计，将视频帧转换为3D点云序列，根据用户指定的相机运动模拟新视角，渲染点云序列以生成新的视频帧。多视图扩散模型：对于更复杂的相机轨迹（如围绕场景中某点的轨道），用多视图扩散模型来生成新视角的视频帧。掩码视频微调：时间LoRA（低秩适应）：在掩码锚视频上微调时间LoRA学习场景动态，关注于学习锚视频中有意义的像素部分，忽略未知区域。空间LoRA：在源视频的增强帧上微调空间LoRA学习场景的外观，确保填补的像素与原视频像素无缝融合。视频模型的强先验：用视频模型的强先验知识，在掩码区域自动填充合理内容，显著提高视频的时间一致性，消除锚视频中的抖动。ReCapture的项目地址项目官网：generative-video-camera-controls.github.ioarXiv技术论文：https://arxiv.org/pdf/2411.05003ReCapture的应用场景电影和视频制作：电影制作人重新编辑和调整已拍摄的视频，改变原有的相机角度和运动，用创造新的视觉效果或改进场景构图。视频编辑和后期制作：视频编辑者修正或增强视频内容，例如，改变相机视角突出视频中的关键元素或消除不想要的背景。虚拟现实（VR）和增强现实（AR）：在VR和AR应用中，生成更加沉浸式和互动式的视频内容，提供从不同视角观察场景的能力。新闻和纪录片：记者和纪录片制作者重现事件，从多个角度展示新闻故事或历史事件，增加报道的深度和维度。体育赛事直播：体育赛事的直播提供更多的视角，让观众从不同的相机角度体验比赛，增强观赛体验。

ReCapture 谷歌和新加坡国立大学共同推出的视频处理技术

CAD-MLLM 上海科技大学联合多机构推出的计算机辅助设计CAD模型生成系统

Halo 开源的DIY健康追踪项目，构建私人健康检测应用

ReCapture 谷歌和新加坡国立大学共同推出的视频处理技术

CAD-MLLM 上海科技大学联合多机构推出的计算机辅助设计CAD模型生成系统

Halo 开源的DIY健康追踪项目，构建私人健康检测应用

相关文章