智源研究院正式发布了他们的新一代多模态世界模型 Emu3,该模型的最大亮点在于,它仅依靠下一个 token 的预测能力,就能在文本、图像和视频这三种不同模态中进行理解和生成。

在图像生成方面,Emu3能够根据视觉 token 预测生成高质量的图像。这意味着用户可以期待灵活的分辨率和多样的风格。

而在视频生成方面,Emu3则是以一种全新的方式工作,不同于其他模型通过噪声生成视频,Emu3通过顺序预测直接生成视频。这种技术的进步使得视频生成变得更加流畅自然。

在图像生成、视频生成和视觉语言理解等任务上,Emu3的性能均超过了许多知名的开源模型,如 SDXL、LLaVA 和 OpenSora。其背后是一个强大的视觉 tokenizer,能够将视频和图像转换为离散的 token,这样的设计为统一处理文本、图像和视频提供了新的思路。

比如说,在图像理解方面,用户只需简单输入一个问题,Emu3就能精准描述出图像内容。

Emu3还具备视频预测能力。当给定一个视频时,Emu3可以基于已有的内容,预测接下来会发生什么。这使得它在模拟环境、人类和动物行为方面显示出了很强的能力,能够让用户感受到更真实的互动体验。

此外,Emu3的设计灵活性也让人耳目一新。它可以直接与人类的偏好进行优化,这样生成的内容更加符合用户的期待。而且,Emu3作为一个开源模型,吸引了技术社区的热议,许多人认为这一成果将彻底改变多模态 AI 的发展格局。

项目网址:https://emu.baai.ac.cn/about

论文:https://arxiv.org/pdf/2409.18869

划重点:

🌟 Emu3通过下一个 token 的预测,实现了文本、图像和视频的多模态理解与生成。

🚀 在多个任务上,Emu3的性能超越了多款知名开源模型,展现出强大的能力。

💡 Emu3的灵活设计和开源特性,为开发者提供了新的机会,有望推动多模态 AI 的创新与发展。