新研究揭示小型 AI 语言模型在推理能力上的重大缺陷

最近，米拉研究所、谷歌 DeepMind 和微软研究院的研究人员对 AI 语言模型的推理能力进行了深入调查，发现小型和便宜的模型在解决复杂问题时存在显著不足。

这项研究的是一个名为 “组合 GSM” 的测试，目的是评估这些模型在解决链式的基础数学问题方面的表现。

图源备注:图片由AI生成，图片授权服务商Midjourney

研究人员结合了 GSM8K 数据集中的两个问题，使用第一个问题的答案作为第二个问题的变量进行测试。结果显示，大多数模型在这些复杂的推理任务中表现远低于预期，尤其是在小型模型中更为明显。虽然小型模型在标准数学测试如 GSM8K 上得分与大型模型相似，但在新的组合测试中，它们的逻辑差距却大幅增加，达到2到12倍之多。

以 GPT-4o mini 为例，它在新测试中的表现远远落后于 GPT-4o，尽管在原始基准测试中几乎相当。其他模型如 Gemini 和 LLAMA3也出现了类似的情况。研究表明，这些小型模型虽然在常见任务中能够识别表面模式，但在新的情境中应用这些知识时却遇到困难。

研究还发现，即使是专门为数学设计的小型模型也存在缺陷。例如，Qwen2.5-Math-7B-IT 在高难度的高中数学题目上得分超过80%，但在链式的基础数学问题上却正确率不足60%。而对于较小的模型，指令调优的方法虽然在原始 GSM8K 测试中能显著提高性能，但在组合 GSM 测试中的提升则微乎其微。

这项研究并不完全最新，因为 OpenAI 最近推出的逻辑优化模型 o1并未纳入测试。尽管有迹象表明 o1在规划能力上有显著提升，但研究显示人类在解决数学问题的速度和优雅度上依然占优。谷歌的 Gemini 模型也在最近的更新后表现出更强的数学能力。

研究者强调，现有的评估方法可能掩盖了这些模型的系统性差异，从而导致对小型模型能力的高估。他们呼吁对低成本 AI 系统的发展策略进行重新评估，质疑这些模型在复杂推理和泛化能力上的固有限制。这项研究为我们了解 AI 系统的局限性提供了更深入的见解。