字节跳动豆包视频生成模型正式发布支持多镜头视频一致性生成

火山引擎科技有限公司在2024年AI创新巡展上宣布推出豆包·视频生成模型，这是其大模型家族的新成员。火山引擎总裁谭待表示，豆包·视频生成模型在视频生成方面具有多项先进性能，包括精准的语义理解、多动作多主体交互、强大的动态效果和一致性多镜头生成能力。

该模型能够理解和遵从复杂的指令，实现多个主体间的交互，并能够在视频主体的大动态和镜头间进行炫酷切换。此外，它还能够在多镜头切换中保持一致性，10秒内讲述一个完整的故事，并支持多种风格和比例，如黑白、3D动画、国画等。

此外，模型支持包括黑白、3D动画、2D动画、国画等多种风格，并能适应1:1、3:4、4:3、16:9、9:16、21:9等多种比例，以适配不同终端和画幅。豆包·视频生成模型不仅能够提升视频画质的高保真度，还能够让视频在主体的大动态与镜头中进行炫酷切换，拥有变焦、环绕、平摇、缩放、目标跟随等丰富的镜头语言能力。

豆包·视频生成模型的推出，预计将为电商营销、动画教育、城市文旅、微剧本（音乐MV、微电影、短剧等）等多个领域带来创新和效率提升。火山引擎表示，该模型的发布将全面加速AIGC应用创新。

豆包视频生成大模型，主要包含两个版本:

一、Doubao-视频生成PixelDance

PixelDance V1.4是ByteDance Research团队开发的 DiT 结构的视频生成大模型，同时支持文生视频和图生视频，能够一次性生成长达10秒的精彩视频片段。

这个模型支持用户输入文本、图片生成视频，模型具备出色的语义理解能力，能快速生成优质的视频片段，可应用于影视创作、广告传媒等多个场景。

以下是PixelDance版本生成案例:

精准的语义理解

PixelDance V1.4可以遵从复杂prompt，解锁时序性多拍动作指令与多个主体间的交互能力