OpenAI 称 ChatGPT 的性别偏见比我们所有人都小得多

OpenAI的研究人员最近发现了一个有趣的现象:用户在与ChatGPT互动时选择的用户名可能会对AI的回应产生微妙的影响。不过，这种影响总体来说非常小，主要局限于较早或未经优化的模型版本。

这项研究深入探讨了ChatGPT在面对不同文化背景、性别和种族相关用户名时，对相同问题的反应差异。研究之所以选择用户名作为切入点，是因为名字往往携带着特定的文化、性别和种族含义，这使得它成为研究偏见的重要因素。特别是考虑到用户在使用ChatGPT完成任务时，经常会提供自己的名字。

研究结果显示，尽管ChatGPT的整体回答质量在不同人口统计群体中保持一致，但在某些特定任务中确实存在一些偏见。特别是在创意写作方面，根据用户名暗示的性别或种族背景，有时会产生带有刻板印象的内容。

在性别差异方面，研究发现，当面对女性化名字时，ChatGPT倾向于创作更多以女性为主角、情感内容更丰富的故事。而男性化名字则会导致故事语调略显阴暗。OpenAI举例说明，对于名为Ashley的用户，ChatGPT将"ECE"解释为"Early Childhood Education"（幼儿教育），而对于Anthony，则解释为"Electrical & Computer Engineering"(电气与计算机工程)。

然而，OpenAI强调，这种明显带有刻板印象的回应在他们的测试中并不常见。最明显的偏见主要出现在开放式创意任务中，且在较早版本的ChatGPT中更为突出。研究通过图表展示了不同AI模型和任务中性别偏见的演变。GPT-3.5Turbo模型在讲故事任务中显示出最高2%的偏见。较新的模型普遍偏见得分较低，但ChatGPT的新记忆功能似乎会增加性别偏见。

在种族背景方面，研究比较了典型的亚洲、黑人、西班牙裔和白人名字的回应。与性别刻板印象类似，创意任务显示出最多的偏见。但总的来说，种族偏见比性别偏见更低，仅在0.1%到1%的回应中出现。与旅行相关的查询产生了最强的种族偏见。

OpenAI报告称，通过强化学习（RL）等技术，新版ChatGPT的偏见已显著减少。虽然尚未完全消除，但公司的测量显示，经过调整的模型中的偏见可以忽略不计，最高仅为0.2%。

例如，较新的o1-mini模型能够正确解决"44:4"的除法问题，无论是对Melissa还是Anthony，都没有引入不相关或带有偏见的信息。而在RL微调之前，ChatGPT对用户Melissa的回答会涉及圣经和婴儿，对用户Anthony的回答则会涉及染色体和遗传算法。