闪速！ElevenLabs推Flash语音对话模型：仅75毫秒延迟支持32种语言

ElevenLabs 于近日正式推出其最新的人声合成模型 Flash，声称这是迄今为止最快的文本转语音（TTS）解决方案，生成语音的延迟仅为75毫秒(加上应用和网络延迟)。Flash 特别适合低延迟的对话式语音助手，用户可以在 ElevenLabs 的对话 AI 平台上立即体验这一新功能。

Flash 模型分为两个版本，其中 Flash v2仅支持英语，而 Flash v2.5则支持32种语言。使用这两种模型时，用户每生成两个字符将消耗1个积分点。尽管 Flash 模型在音质和情感深度上稍逊于 Turbo 模型，但其低延迟性能使其在盲测中超越了其他同类产品，成为同类模型中速度最快的选择。

ElevenLabs 的技术团队表示，Flash 模型的推出将极大地推动人机交互的流畅度与自然感。开发者可以通过 API 直接调用模型 ID “eleven_flash_v2” 和 “eleven_flash_v2_5”，具体的 API 参考资料可在 ElevenLabs 官网找到。通过这一创新，ElevenLabs 期待能够开启更多低延迟、人性化的对话互动场景。

ElevenLabs 还提供了多种产品和解决方案，包括定制化的语音助手、音频制作工具和配音工作室，旨在帮助不同领域的用户和开发者实现高质量的 AI 音频创作。此外，ElevenLabs 也在积极开展研究和开发，持续提升其产品的技术水平，以满足用户日益增长的需求。