OpenAI 的新 AI 模型 o1-preview 和 o1-mini 在聊天机器人排名中取得最高分

OpenAI 的新系统在最近的评估中取得了出色的成绩，夺得了聊天机器人排名的第一名。但是，由于评分数量较低，这可能会扭曲评估结果。

根据发布的概述，这些新系统在所有评估类别中都表现出色，包括整体性能、安全性和技术能力。其中一款专门用于STEM任务的系统与9月初发布的GPT-4o版本一起短暂排名第二，并在技术领域占据领先地位。

Chatbot Arena是一个用于比较不同系统的平台，使用超过6，000个社区评分对新系统进行了评估。结果表明，这些新系统在数学任务、复杂提示和编程方面表现优异。

然而，这些新系统获得的评分远低于其他成熟系统，如GPT-4o或Anthropic的Claude3.5，每个系统的评论数均不到3，000条。如此小的样本量可能会扭曲评估并限制结果的重要性。

OpenAI 的新系统在数学和编码方面表现出色，这是其设计的主要目标。通过在回答之前“思考”更长时间，这些系统旨在为AI推理树立新标准。然而，这些系统并非在所有领域都胜过其他系统。许多任务不需要复杂的逻辑推理，有时其他系统的快速响应就足够了。

Lmsys关于数学模型强度的图表清楚地显示，这些新系统的得分超过1360，远高于其他系统的性能。