一项由以色列理工学院主导的最新研究表明,大型语言模型(LLM)可能“深藏不露”,掌握的知识比实际表现出来的更多。研究人员发现,LLM 的内部表征编码了关于其输出正确性的信息,即使它们最终生成了错误的答案,也能在内部识别出正确答案。

该研究团队重点分析了 LLM 在长文本生成中的错误,这更贴近其在现实世界中的应用场景。他们构建了一个错误检测数据集,通过比较模型生成的答案与真实答案来判断其正确性,并以此为基础,研究 LLM 内部表征中编码真实性信号的位置。

研究发现,与以往研究关注最后一个生成标记或平均值不同,真实性信息集中在“精确答案标记”中,即那些修改后会改变答案正确性的标记。以问题“康涅狄格州的首府是什么?”为例,精确答案标记就是“哈特福德”。

为了识别精确答案标记,研究人员使用了一种外部算法,该算法能够从模型的长篇答案中提取精确答案。实验结果显示,所有被评估的 LLM 都能够从自身的输出中提取精确答案。

通过对不同模型和数据集进行实验,研究人员发现,使用精确答案标记可以显著提高错误检测方法的性能,尤其是在探测模型内部表征时。

更令人惊讶的是,即使当模型在生成过程中没有表现出对正确答案的偏好时,探测器依然能够有效地识别出正确答案。 这表明 LLM 的内部编码和外部行为之间存在显著的脱节,即使模型内部知道正确答案,它在实际生成文本时仍然可能给出错误的答案。

这项研究对 LLM 的错误分析和改进具有重要意义。 通过深入理解 LLM 内部表征中真实性信号的编码方式,可以开发更有效的错误检测和校正方法,从而提高 LLM 的可靠性和实用性。

论文地址:https://arxiv.org/pdf/2410.02707