Genie 2 谷歌DeepMind推出的最新一代基础世界模型

Genie 2是什么

Genie 2是DeepMind推出的新一代大规模基础世界模型，仅凭一张图片生成长达1分钟的可交互3D游戏世界。Genie 2能模拟出物体交互、角色动画、物理效果等复杂动态，支持用键盘和鼠标进行操作。Genie 2具备长时间记忆功能，能记住且精确还原暂时离开视野的场景。Genie 2能实时创造符合逻辑的新场景内容，在长达一分钟的时间内保持整个世界的一致性。

Genie 2的主要功能基于图像生成3D世界：Genie 2能根据单张图片生成可交互的3D游戏世界，最长可玩1分钟。动作控制：模型能响应键盘和鼠标输入的动作，识别且正确移动角色。生成反事实场景：基于同一个开始画面，创造出多个不同的发展路径。长时间记忆：能记住暂时离开画面的场景，在画面重新进入视野时精确还原。持续生成新场景：在过程中实时创造出符合逻辑的新场景内容，且保持世界一致性。多样化环境生成：能生成多种不同的观察视角，如第一人称视角、等距视角或第三人称驾驶视角。3D结构创建：创建复杂的3D视觉场景。物体属性与交互：建模各种物体交互，例如气球爆裂、开门和射击炸药桶。Genie 2的技术原理自回归潜变量扩散模型：基于大规模视频数据集训练的自回归潜变量扩散模型。视频帧处理：视频的潜变量帧首先基于自动编码器处理，再传递给一个大规模Transformer动态模型。因果掩码训练：Transformer模型基于因果掩码进行训练，类似于大型语言模型所使用的掩码方式。自回归采样：在推理阶段，Genie 2用自回归的方式进行采样，逐帧用单个动作和先前的潜变量帧。无分类器指导：在动作控制中用无分类器指导（classifier-free guidance）提高动作的可控性。Genie 2的项目地址项目官网：deepmind.google/discover/blog/genie-2Genie 2的应用场景智能体训练与评估：创建复杂的虚拟环境，用在训练和测试AI智能体在模拟环境中的表现和决策能力。游戏开发：用Genie 2生成的动态世界，游戏开发者能设计出更加丰富和互动的游戏内容，提升玩家的沉浸感。模拟与训练：在军事训练中模拟战场环境，或在教育中模拟历史事件，提供逼真的模拟体验，用在训练和学习。机器人学习：作为机器人训练的平台，模拟不同的环境和情况，帮助机器人学习如何在现实世界中导航和操作。虚拟现实（VR）和增强现实（AR）：结合VR和AR技术，创建虚拟环境，用在娱乐、教育或专业训练，提供沉浸式体验。

Genie 2 谷歌DeepMind推出的最新一代基础世界模型

Galaxy Digital七小时前从币安提出1090万枚ENA，成为其链上持仓排名第8资产

生成式AI威胁创作者收入：未来五年将损失 350 亿澳元！

Genie 2 谷歌DeepMind推出的最新一代基础世界模型

Galaxy Digital七小时前从币安提出1090万枚ENA，成为其链上持仓排名第8资产

生成式AI威胁创作者收入：未来五年将损失 350 亿澳元！

相关文章