2025年1月20日,豆包 App 正式发布了其最新的 “端到端” 语音大模型,并对实时语音通话功能进行了重要更新。这一进展标志着豆包在语音交互领域的又一次飞跃,超越了之前的 ASR(自动语音识别)、LLM(大语言模型)和 TTS(文生音频)的级联方案,将语音识别、理解和生成整合在同一个模型中。
经过《智能涌现》的测试,新版豆包的最大亮点在于其具备了人类般的表达能力和情感输出,提升了对话的流畅度与智能水平。尤其是 “灵魂歌手” 和 “百变大咖” 模式,让豆包不仅能够进行唱歌,还能够进行丰富的角色扮演,成为用户互动的新宠。例如,当用户要求豆包模仿明星虞书欣的声音时,豆包不仅成功复刻了角色的语气,还调皮地表达了自己的独特个性。
更值得一提的是,豆包能够在自然对话中即兴创作歌曲,而不需要复杂的指令或专业的提示。用户可以随意要求豆包唱歌,甚至可以指定歌词主题。豆包的表现虽然偶有小失误,但其反应速度和即兴创作能力却令人惊叹,展现出其强大的拟人化能力。
此外,豆包新增加的 “受气小包” 和 “夸夸大师” 两种人格模式也给用户带来了新鲜感。这些人格模式让豆包在不同情境下表现出不同的情绪与风格,从而增强了互动的趣味性与真实感。
在语音交互技术日益发展的今天,豆包的这一更新不仅将 AI 的应用场景扩展至情感陪伴、心理咨询等领域,还让 AI 的情感交流能力更加贴近人类。这一转变无疑将使豆包在竞争激烈的市场中占据一席之地,并引领 AI 交互的未来发展。