最近,米拉研究所、谷歌 DeepMind 和微软研究院的研究人员对 AI 语言模型的推理能力进行了深入调查,发现小型和便宜的模型在解决复杂问题时存在显著不足。

这项研究的是一个名为 “组合 GSM” 的测试,目的是评估这些模型在解决链式的基础数学问题方面的表现。

图源备注:图片由AI生成,图片授权服务商Midjourney

研究人员结合了 GSM8K 数据集中的两个问题,使用第一个问题的答案作为第二个问题的变量进行测试。结果显示,大多数模型在这些复杂的推理任务中表现远低于预期,尤其是在小型模型中更为明显。虽然小型模型在标准数学测试如 GSM8K 上得分与大型模型相似,但在新的组合测试中,它们的逻辑差距却大幅增加,达到2到12倍之多。

以 GPT-4o mini 为例,它在新测试中的表现远远落后于 GPT-4o,尽管在原始基准测试中几乎相当。其他模型如 Gemini 和 LLAMA3也出现了类似的情况。研究表明,这些小型模型虽然在常见任务中能够识别表面模式,但在新的情境中应用这些知识时却遇到困难。

研究还发现,即使是专门为数学设计的小型模型也存在缺陷。例如,Qwen2.5-Math-7B-IT 在高难度的高中数学题目上得分超过80%,但在链式的基础数学问题上却正确率不足60%。而对于较小的模型,指令调优的方法虽然在原始 GSM8K 测试中能显著提高性能,但在组合 GSM 测试中的提升则微乎其微。

这项研究并不完全最新,因为 OpenAI 最近推出的逻辑优化模型 o1并未纳入测试。尽管有迹象表明 o1在规划能力上有显著提升,但研究显示人类在解决数学问题的速度和优雅度上依然占优。谷歌的 Gemini 模型也在最近的更新后表现出更强的数学能力。

研究者强调,现有的评估方法可能掩盖了这些模型的系统性差异,从而导致对小型模型能力的高估。他们呼吁对低成本 AI 系统的发展策略进行重新评估,质疑这些模型在复杂推理和泛化能力上的固有限制。这项研究为我们了解 AI 系统的局限性提供了更深入的见解。

划重点:

📉 小型 AI 语言模型在解决链式数学问题时表现不佳,逻辑差距高达12倍。

🧮 即便是专门针对数学的小型,在基础问题上的正确率也低于60%。

🔍 现有评估方法可能高估了小型模型的能力,需重新审视其发展策略。