EDTalk 上海交大联合网易推出高效解耦的情感说话头像合成模型

EDTalk是什么

EDTalk是上海交通大学联合网易研发的音频驱动唇部同步模型，能实现对嘴型、头部姿态和情感表情的独立操控。只需上传一张图片、一段音频和参考视频，就能驱动图片中的人物说话，支持自定义情感，如高兴、愤怒、悲伤等。EDTalk通过三个轻量级模块将面部动态分解成代表口型、姿态和表情的三个独立潜在空间，每个空间由一组可学习的基向量表征，其线性组合定义了特定的动作。这种高效的解耦训练机制提升了训练效率，降低了资源消耗，即使是初学者也能快速上手并探索创新应用。

EDTalk的主要功能音频驱动唇部同步：EDTalk能根据上传的图片和音频，驱动图片中的人物说话，实现唇形同步。自定义情感表达：EDTalk支持自定义情感，如高兴、愤怒、悲伤等，合成视频中的人物表情与音频情绪高度统一。Audio-to-Motion模块：EDTalk的Audio-to-Motion模块能根据音频输入，自动生成与音频节奏同步的嘴唇运动和符合语境的表情。支持视频和音频输入：EDTalk能在视频和音频输入下实现精确的情感说话头像生成。EDTalk的技术原理高效解耦框架：EDTalk通过三个轻量级模块将面部动态分解为三个不同的潜在空间，分别代表嘴型、头部姿态和情感表情。这种解耦合技术允许对这些面部动作进行独立控制，不相互干扰。可学习的基向量表征：每个潜在空间都由一组可学习的基向量来表征，这些基向量的线性组合定义了特定的动作。这种设计使得EDTalk能够灵活地合成具有特定嘴型、头部姿态和表情的讲话人头像视频。正交性和高效训练策略：为了确保独立性并加速训练，EDTalk在基向量之间强制正交，设计了一种高效的训练策略，将动作责任分配给每个空间，不依赖于外部知识。EDTalk的项目地址项目官网：https://tanshuai0219.github.io/EDTalk/Github仓库：https://github.com/tanshuai0219/EDTalkarXiv技术论文：https://arxiv.org/pdf/2404.01647EDTalk的应用场景个人数字助理的个性化定制：EDTalk可以用于创建个性化的数字助理，通过合成与用户语音相匹配的动态人脸视频，提升交互体验。影视后期制作：在影视制作中，EDTalk可以用于角色对话合成，通过音频驱动生成与角色情感相匹配的嘴型和表情，增强角色表现力。教育软件的互动教学助手开发：EDTalk可以应用于教育软件中，创建互动式的教学助手，通过情感表达增强学习体验。远程通讯：在远程通讯领域，EDTalk可以提供更逼真、情感共鸣的视频交流体验，提升沟通效果。虚拟现实交互：在虚拟现实环境中，EDTalk可以用于生成具有情感表达的虚拟角色，增强用户的沉浸感。

EDTalk 上海交大联合网易推出高效解耦的情感说话头像合成模型

CME美联储观察：美联储明年1月降息25个基点的概率小幅升至10.7%

VE-Bench 北京大学开源首个针对视频编辑质量评估的新指标

EDTalk 上海交大联合网易推出高效解耦的情感说话头像合成模型

CME美联储观察：美联储明年1月降息25个基点的概率小幅升至10.7%

VE-Bench 北京大学开源首个针对视频编辑质量评估的新指标

相关文章