Meta AI 最新推出的 SPIRIT-LM 是一款具有革命性意义的多模态基础语言模型,它能够自由混合文本和语音,并能像人类一样理解和表达情感。
SPIRIT-LM 基于预训练的文本语言模型构建,通过在文本和语音单元上进行持续训练,扩展到语音模态。该模型将语音和文本序列连接成一个单一的标记集,并使用一个小型自动管理的语音-文本平行语料库,采用词级交织方法进行训练。
SPIRIT-LM 有两个版本:
基础版 (SPIRIT-LM-BASE) 使用语音语义单元。
情感版 (SPIRIT-LM-EXPRESSIVE) 使用音调和风格单元来模拟情感表达,除此之外还包括语义单元。
两个版本都使用子词 BPE 标记对文本进行编码。
SPIRIT-LM 结合了文本模型的语义能力和语音模型的表达能力,因此它能够完成跨模态的任务,如语音识别、文本转语音和语音分类,并且只需少量样本即可学习新任务。
为了评估生成模型的表达能力,研究人员引入了语音-文本情感保存基准 (STSP),该基准衡量生成模型在模态内部和跨模态情况下,对口头和书面表达的情感保存程度。
情感版 SPIRIT-LM 是第一个能够在模态内部和跨模态情况下保存文本和语音提示情感的语言模型。它利用音调和风格标记来捕捉语音的情感和风格,并通过专门设计的语音-文本情感保存基准进行评估。
研究结果表明:
SPIRIT-LM 在语音模态的词汇、语法和语义理解方面与现有模型不相上下,同时保持了良好的文本生成能力。
交织训练是 SPIRIT-LM 成功的关键,它使模型能够学习语音和文本标记之间的对应关系,从而实现更好的文本到语音的转换。
预训练知识对于 SPIRIT-LM 的少样本学习能力至关重要。
SPIRIT-LM-EXPRESSIVE 能够捕捉和生成更具表现力的语音,在情感表达方面优于基础版。
SPIRIT-LM 是 AI 语言模型发展史上的一个重要里程碑,它开创了多模态语言理解和生成的全新可能性,为未来更智能、更人性化的 AI 应用奠定了基础。
论文地址:https://arxiv.org/pdf/2402.05755
项目地址:https://github.com/facebookresearch/spiritlm