清华大学的研究团队近日发布了名为 SonicSim 的移动音源仿真平台,旨在解决当前语音处理领域在移动声源场景下数据缺乏的难题。

这一平台基于 Habitat-sim 仿真平台构建,能够高度逼真地模拟真实世界的声学环境,为语音分离和增强模型的训练和评估提供更优质的数据支持。

现有的语音分离和增强数据集大多基于静态声源,难以满足移动声源场景下的需求。

虽然现实世界中也存在一些真实录制的数据集,但其规模有限,且采集成本高昂。相比之下,合成数据集虽然规模更大,但其声学模拟的真实性往往不足,难以准确反映真实环境中的声学特征。

SonicSim 平台的出现有效解决了上述问题。 该平台能够模拟各种复杂的声学环境,包括障碍物遮挡、房间几何形状以及不同材料对声音的吸收、反射和散射特性等,并支持用户自定义场景布局、声源和麦克风位置、麦克风类型等参数。

基于 SonicSim 平台,研究团队还构建了一个名为 SonicSet 的大型多场景移动音源数据集。

该数据集使用了来自 LibriSpeech、Freesound Dataset50k 和 Free Music Archive 的语音和噪声数据,以及90个来自 Matterport3D 数据集的真实场景,包含了丰富的语音、环境噪声和音乐噪声数据。

SonicSet 数据集的构建过程高度自动化,能够随机生成声源和麦克风的位置以及声源的运动轨迹,确保了数据的真实性和多样性。

为了验证 SonicSim 平台和 SonicSet 数据集的有效性,研究团队在语音分离和语音增强任务上进行了大量的实验。

结果表明,在 SonicSet 数据集上训练的模型在真实世界录制的数据集上取得了更优异的性能,证明了 SonicSim 平台能够有效模拟真实世界的声学环境,为语音处理领域的研究提供了强有力的支持。

SonicSim 平台和 SonicSet 数据集的发布,为语音处理领域的研究带来了新的突破。 随着仿真工具的不断改进和模型算法的优化,未来将进一步推动语音处理技术在复杂环境中的应用。

然而,SonicSim 平台的真实性仍然受到3D 场景建模细节的限制。 当导入的3D 场景存在缺失或不完整结构时,平台无法准确模拟当前环境中的混响效果。

论文地址:https://arxiv.org/pdf/2410.01481