字节开源全新代码大模型评估基准“FullStack Bench”

12月5日，字节豆包大模型团队推出了最新的代码大模型评估基准——FullStack Bench，涵盖了超11类真实场景，支持16种编程语言，并包含3374个问题。这一基准相比之前的评估标准，在更广泛的编程领域中能更准确地评估大模型的代码开发能力，推动了模型在现实世界编程任务中的优化。

目前的主流代码评估基准，如HumanEval和MBPP，通常集中在基础和高级编程问题，而DS-1000则专注于数据分析和机器学习任务，且仅支持Python。xCodeEval则侧重于高级编程和数学领域，存在较大的应用场景和语言覆盖限制。相比之下，FullStack Bench在数据覆盖方面显著增强，囊括了超11个应用领域，并且涵盖了更为复杂多样的编程场景。

FullStack Bench的数据集来源于全球最大编程问答平台Stack Overflow，研究团队从50万个问题中筛选出前88.1%的应用领域，确保了数据集的广泛性与鲁棒性。每个问题都包括详细的题目描述、参考解决方案和单元测试用例，确保评估准确性。团队还通过AI与人工复核对数据质量进行了交叉评估，进一步提高了数据的可靠性。

为方便开发者使用这一数据集，字节豆包团队还开源了代码沙盒工具——SandboxFusion，支持多语言编程任务的高效执行。SandboxFusion兼容超过10种广泛使用的代码评估数据集，支持23种编程语言，能够帮助开发者在不同环境中轻松进行大模型测试。

此外，字节豆包大模型团队还首次展示了自家开发的代码大模型——Doubao-Coder，并对全球20余款代码大模型进行了编程能力评测。字节在AI编程领域的不断进展，特别是通过自研的代码基座模型MarsCode，每月为用户贡献百万量级代码，展现了其在这一领域的领先地位。

数据集开源地址:https://huggingface.co/datasets/ByteDance/FullStackBench

沙盒开源地址:https://github.com/bytedance/SandboxFusion

论文地址:https://arxiv.org/pdf/2412.00535v2