OpenAI 新模型 o1 声称能 “完美” 纠正偏见，但数据并不完全支持

近日，OpenAI 的全球事务副总裁安娜・马坎朱（Anna Makanju）在联合国 “未来峰会” 上发表了一番关于人工智能偏见的看法。

她提到，像 OpenAI 的 o1这样的 “推理” 模型，能够显著减少 AI 系统中的偏见。那么，o1是如何做到这一点的呢?马坎朱解释说，这些模型可以自我识别回答中的偏见，并更加遵循不产生 “有害” 回答的规则。

她表示，o1模型在处理问题时，会花费更多时间来评估自己的回答，能够自我检查:“它能够说，‘这是我解决这个问题的方式’，然后再审视自己的回答，看看‘哦，这里可能存在推理上的缺陷’。” 她甚至强调，1在分析自身偏见方面做得 “几乎完美”，并且随着技术进步，它的表现会越来越好。

不过，这种 “几乎完美” 的说法似乎有些夸张。OpenAI 内部测试发现，相较于 “非推理” 模型，包括其自家的 GPT-4o，o1在一些偏见测试中表现得并不理想。在关于种族、性别和年龄的问题上，o1在某情况下表现得甚至不如 GPT-4o。尽管在隐性歧视方面，o1的表现更好，但在显性歧视上，它却在年龄和种族问题上显得更为突出。

更有意思的是，o1的经济版 o1-mini 的表现更糟糕。测试显示，o1-mini 在性别、种族和年龄上显性歧视的概率高于 GPT-4o，同时在年龄问题上的隐性歧视也更为明显。

除此之外，当前的推理模型还有许多局限性。OpenAI 也承认，o1在某些任务上带来的好处微乎其微。它的反应速度较慢，有些问题需要超过10秒的时间来回答。而且，o1的成本也不容小觑，运行成本是 GPT-4o 的3到4倍。

如果马坎朱所说的推理模型确实是实现公平 AI 的最佳途径，那么它们在偏见以外的其他方面也需要改善，才能成为一个可行的替代方案。如果不能，只有那些财力雄厚、愿意承受各种延迟和性能问题的客户才能真正受益。