OpenAI在经过12天的技术分享直播活动后,于最后一天发布了其下一代推理模型o3,这是继早前发布的o1推理模型之后的升级版本。o3模型系列包括o3和o3-mini两个版本,其中o3-mini是针对特定任务进行微调的更小的精简版模型。OpenAI表示,o3模型在某些条件下可以接近实现通用人工智能(AGI),即能完成人类所能完成的任何任务的人工智能。
在ARC-AGI图形逻辑推理基准测试中,o3模型取得了破纪录的分数,低计算场景下得分为75.7%,而在高计算测试中,它达到了87.5%,超过了标志着达到人类水平的门槛85%。相比之下,o1模型的得分仅在25%到32%之间,o3的表现几乎是o1的三倍。在全球著名的编码竞赛平台Codeforces上,o3取得了2727的评分,而o1评分仅为1891。
猎豹移动猎户星空董事长傅盛表示,OpenAI o3的发布预示着人人都是程序员的时代即将到来,用户无需精通Python或C语言也能编写程序,只需提出需求,大预言模型即可帮助完成编程工作。傅盛认为,o3的发布标志着大语言模型的编程能力超越了99.9%的程序员,在Codeforces世界级编程比赛中,o3取得了175名的顶尖成绩,而o1大概只战胜了90%多的程序员,之前GPT-4o只战胜了11%的程序员。
OpenAI计划在明年1月底正式发布o3模型。傅盛指出,虽然程序员不会完全消失,但他们的工作将更多地转向理解用户需求和构建大逻辑,而将需求转化为代码的工作将大幅度地由AI完成。这一发布预示着AI在编程领域的应用将更加广泛,同时也可能改变程序员的工作方式。