蚂蚁数科业界首次构建百万级高质量 Deepfake 数据集

近日，在中关村论坛系列活动第12届数字金融与科技金融大会上，蚂蚁数科的Deepfake检测方案入选大会“金融科技技术创新与应用案例”。

蚂蚁数科依托旗下天玑实验室，业界首次构建了大规模、高质量、多模态的Deepfake数据集，其合成超过百万级多媒体内容，充分地模拟了真实世界金融风控环境中的Deepfake攻击样本，成为评测现有金融领域Deepfake检测模型性能的重要标准。在金融业务场景中，蚂蚁数科多组测试数据集上的Deepfake检测准确率达到了98%以上，并成功阻止了多起利用Deepfake技术进行的欺诈行为，保护了用户的资产安全。

该数据集解决了以往金融领域Deepfake检测模型无法大规模训练，无法在真实环境中测评的问题，并且从多模态分析角度促进了传统检测模型的发展。目前该数据集已经成为蚂蚁数科反深伪产品ZOLOZDeeper对外服务客户的关键能力。

据了解，蚂蚁数科使用先进的多达81种Deepfake技术生成高质量的合成图像，覆盖了多种伪造技术类型、复杂光照条件、背景环境和面部表情，以模拟复杂逼真的真实世界攻击环境。除了静态图像外，还收集并生成了大量包含声音的视频数据，包括100多种伪造技术类型，涵盖不同语种、口音和背景噪音，确保数据集的多样性和复杂性。

在数据预处理和标注阶段，蚂蚁数科对收集到的数据进行清洗和预处理，确保数据质量。通过专家团队对数据进行标注，明确每张图像或每个视频是否为Deepfake生成的内容，同时保证伪造痕迹的最小化，达到高度逼真的效果。此前，蚂蚁数科发布了AI数据合成与生产平台，在数据标注层面实现了“AI主导”，标注模型依赖人工标注量降低了70%以上。

此外，蚂蚁数科在2024外滩大会发起了一场Deepfake攻防挑战赛，将Deepfake数据集作为比赛的基础训练和测试数据，吸引到了全球26个国家和地区，2200多名选手报名参赛。通过大赛选手贡献的算法方案，Deepfake数据集的攻击质量和检测难度得到了有效验证和评估。

随着人工智能技术的发展，Deepfake技术也在迅速进步。这种技术利用深度学习算法，可以对视频中的人脸进行逼真的替换。尽管Deepfake在娱乐和传媒等领域有着积极的应用，但在金融领域，特别是身份验证和交易验证环节，Deepfake技术带来了新的风险。金融机构的身份验证系统往往依赖于生物识别技术，如人脸识别。一旦这些系统被Deepfake技术所欺骗，可能导致严重的金融欺诈。

鉴于此，开发针对Deepfake攻击的检测系统在金融领域是十分必要的，但是强大的Deepfake检测防御模型需要高质量符合真实世界环境的人脸Deepfake数据集，所以如何构建模拟真实世界的数据集以及如何验证其有效性是紧迫的问题。