吉利汽车智能语音新突破：自研大模型超越业界标杆

吉利汽车近日在语音合成领域取得重大突破，其自主研发的HAM-TTS大模型性能超越了行业标杆VALL-E，引起业界广泛关注。这款名为"星睿"的AI大模型在发音准确性、自然度和说话人相似度等关键指标上均实现了显著提升。

HAM-TTS模型采用基于token的零样本文字转语音分层声学建模技术，在智能座舱中大幅提升了用户交互体验。在相同的4亿参数条件下，HAM-TTS模型的字符错误率比VALL-E下降了1.5%;而在8亿参数的完全体上，字符错误率更是直降2.3%。在风格一致性、音调一致性和整体得分上，HAM-TTS模型都取得了10%的显著提升。

星睿模型的优势不仅体现在性能指标上，其实用性也令人印象深刻。它能够在虚拟形象联动、语音导航、新闻播报等多种场景中保持说话人的声音稳定性，并根据情境智能调节语气、语调、停顿和情感。更值得一提的是，该模型可以在不同语种间无缝切换，包括方言和外语，且只需3秒钟的样本输入就能完成声音复刻，远优于业界通常需要的10秒以上。

吉利团队通过引入分层声学建模，创新性地提高了模型性能。他们解决了发音不准的问题，并引入隐空间变量序列预测器和文本对齐器，使文本和声音的匹配更加精准，从而使合成语音更加自然流畅。

这一突破不仅展示了吉利在智能化技术方面的研发实力，也反映了其在AI领域的雄心。吉利的星睿AI大模型体系已扩展到多模态大模型、语言大模型等多个方向，为智能汽车技术奠定了基础。同时，吉利的云端总算力也从去年的81亿亿次/秒提升至102亿亿次/秒，显示出其在技术上的持续投入。

随着电动化的初步成功，吉利在智能化领域的这一突破，为汽车行业的未来发展提供了新的思路和可能性。这不仅重新定义了我们对传统汽车制造商的认知，也预示着智能化将成为未来汽车行业竞争的关键领域。

论文地址：https://arxiv.org/pdf/2403.05989