在人工智能的世界里,机器学习模型尤其是大型语言模型(LLMs)的推理能力一直是科学家们关注的焦点。

最近,苹果公司的AI研究团队发表了一篇论文,题为《理解大型语言模型在数学推理上的局限性》,为我们揭开了这些模型在处理逻辑问题时的局限性。

论文中,研究者们通过一个简单的数学问题来展示这一点。他们首先提出了一个关于奥利弗摘猕猴桃的问题:

如下所示:

奥利弗星期五摘了44颗猕猴桃。星期六他又摘了58颗猕猴桃。星期天他摘的猕猴桃数量是星期五的两倍。奥利弗一共有多少颗猕猴桃?

显然,答案是44+58+ (44*2) =190。虽然大型语言模型在算术方面实际上并不完善,但它们可以相当可靠地解决这样的问题。

但如果你加入一些无关的信息,来观察模型的反应,比如:

奥利弗星期五摘了44颗猕猴桃。星期六他又摘了58颗。星期天他摘的猕猴桃数量是星期五的两倍,但其中5颗比平均尺寸小一点。奥利弗有多少颗猕猴桃?

尽管这并没有改变问题的数学本质,但即使是最先进的LLMs也在这个小小的干扰下给出了错误的答案。例如,GPT-o1-mini错误地从星期天摘的猕猴桃总数中减去了5个小猕猴桃。

这个实验表明,尽管LLMs在某些情况下能够给出正确答案,但它们并不真正理解问题的本质。

研究者们认为,这些模型的失败模式表明,它们并没有进行真正的逻辑推理,而是在复制它们在训练数据中观察到的推理步骤。这就像是一个LLM能够统计出“我爱你”后面通常会跟着“我也爱你”,但这并不意味着它真正理解了爱的含义。

这篇论文的合著者之一Mehrdad Farajtabar在社交媒体上进一步解释了这一发现。他指出,尽管通过更好的提示工程可能在一些简单的情况下提高模型的表现,但对于复杂的干扰,模型可能需要更多的上下文数据来正确处理,而这些干扰对于一个小孩来说可能根本不是问题。

这项研究提醒我们,尽管LLMs在语言处理方面表现出色,但它们在逻辑推理方面的能力仍然有限。这不仅是一个学术问题,随着AI技术日益成为我们日常生活的一部分,这些问题的答案变得愈发重要。

我们不能简单地假设AI能够理解并执行复杂的任务,而应该更加深入地了解它们的工作原理和局限性。这项研究为我们提供了对AI技术更深层次的理解,同时也为我们如何使用和发展这些技术提供了宝贵的见解。

参考资料:https://techcrunch.com/2024/10/11/researchers-question-ais-reasoning-ability-as-models-stumble-on-math-problems-with-trivial-changes/