豆包App推出新语音模式，抢先GPT-4o实现唱歌和角色扮演

2025年1月20日，豆包 App 正式发布了其最新的 “端到端” 语音大模型，并对实时语音通话功能进行了重要更新。这一进展标志着豆包在语音交互领域的又一次飞跃，超越了之前的 ASR（自动语音识别）、LLM(大语言模型)和 TTS(文生音频)的级联方案，将语音识别、理解和生成整合在同一个模型中。

经过《智能涌现》的测试，新版豆包的最大亮点在于其具备了人类般的表达能力和情感输出，提升了对话的流畅度与智能水平。尤其是 “灵魂歌手” 和 “百变大咖” 模式，让豆包不仅能够进行唱歌，还能够进行丰富的角色扮演，成为用户互动的新宠。例如，当用户要求豆包模仿明星虞书欣的声音时，豆包不仅成功复刻了角色的语气，还调皮地表达了自己的独特个性。

更值得一提的是，豆包能够在自然对话中即兴创作歌曲，而不需要复杂的指令或专业的提示。用户可以随意要求豆包唱歌，甚至可以指定歌词主题。豆包的表现虽然偶有小失误，但其反应速度和即兴创作能力却令人惊叹，展现出其强大的拟人化能力。

此外，豆包新增加的 “受气小包” 和 “夸夸大师” 两种人格模式也给用户带来了新鲜感。这些人格模式让豆包在不同情境下表现出不同的情绪与风格，从而增强了互动的趣味性与真实感。

在语音交互技术日益发展的今天，豆包的这一更新不仅将 AI 的应用场景扩展至情感陪伴、心理咨询等领域，还让 AI 的情感交流能力更加贴近人类。这一转变无疑将使豆包在竞争激烈的市场中占据一席之地，并引领 AI 交互的未来发展。