在2024年12月19日的发布会上,智源研究院与腾讯宣布推出LongBench v2,这是一个专为评估大语言模型(LLMs)在真实世界长文本多任务中的深度理解与推理能力而设计的基准测试。该平台旨在推动长文本模型在理解和推理方面的进步,回应了当前长文本大语言模型在应用中的挑战。

LongBench v2的显著特点包括支持更长的文本长度,范围从8k到2M个词,且包含503个具有挑战性的四选一选择题,难度较高,连人类专家在15分钟内的平均准确率也仅为53.7%。此外,该基准测试涵盖了六个主要任务类别,包括单文档问答、多文档问答、长文本语境学习等,确保了广泛的应用场景。

为了保证评估的可靠性,LongBench v2的所有问题均采用多项选择题形式,并经过严格的人工标注和审核流程。数据收集过程中,招募了来自顶尖大学的标注员,确保问题的质量和难度。通过引入控制变量,LongBench v2对原始Bradley-Terry统计算法进行了改进,降低了混淆因素的影响,使得模型排名更加科学和精准。

在评估结果方面,研究团队对10个开源LLMs和6个闭源LLMs进行了测试,发现引入控制变量后,模型的表现得到了显著提升。特别是GPT-4o模型在引入更多推理步骤后,在多文档问答和长文本语境学习等任务上表现出色,显示出推理能力的重要性。

LongBench v2的推出不仅为大语言模型的评估提供了新的工具,也为未来的研究指明了方向,强调了提升模型自身理解和推理能力的重要性。智源研究院和腾讯的合作,标志着在AI技术领域的进一步发展,期待这一基准测试能够推动长文本理解和推理技术的进步。

主页:https://longbench2.github.io

论文:https://arxiv.org/abs/2412.15204

数据与代码:https://github.com/THUDM/LongBench