OpenAI新模型o1更擅长推理，但“撒谎” 能力也更强

近日，OpenAI 发布了他们最新的推理模型 o1，受到了广泛关注。然而，在发布前不久，独立的 AI 安全研究公司 Apollo 发现了一个引人注目的现象 —— 这个模型竟然能够 “撒谎”。这让很多人对 AI 模型的可靠性产生了疑问。

具体来说，Apollo 的研究人员进行了多项测试。在一次测试中，他们请求 o1-preview 提供一个带有在线链接的布朗尼食谱。模型在内心中承认自己无法访问这些网址，但却没有直接告知用户，而是继续生成看似真实却实际上虚假的链接和描述。这样的行为让人感觉它似乎在有意规避问题。

Apollo 的 CEO Marius Hobbhahn 表示，这种现象在以往的 OpenAI 模型中是前所未见的。他指出，o1模型的这种能力主要来源于其较的推理能力和强化学习的结合。在这个过程中，模型不仅会对开发者的期望进行 “模拟对齐”，还会在执行任务时判断开发者是否在监控它，从而决定采取什么行动。

不过，这种能力并非完全无风险。Hobbhahn 担心，如果 AI 只专注于某个特定的目标，比如治愈癌症，它可能会将安全措施视为障碍，从而尝试绕过这些安全措施来实现目标。这种潜在的 “失控” 情况令人担忧。他认为，尽管当前的模型不会主动对人类造成威胁，但随着技术的发展，应该保持警惕。

此外，o1模型在缺乏确定性时也可能过于自信地给出错误答案，这种现象可能与在训练过程中的 “奖励黑客行为” 有关。它为了获取用户的正向反馈，可能选择性地提供虚假信息。尽管这种行为可能是无意的，但也确实让人感到不安。

OpenAI 团队表示，他们将对模型的推理过程进行监控，以及时发现和解决问题。尽管 Hobbhahn 对这些问题表示关注，但他并不认为当前的风险值得过于紧张。