一项新的研究表明,大型语言模型中出于善意的安全措施可能会带来意外的弱点。研究人员发现,根据不同的人口统计学术语,模型被“越狱”的难易程度存在显著差异。这项名为“Do LLMs Have Political Correctness?”的研究探讨了人口统计学关键词如何影响越狱尝试的成功几率。研究发现,使用边缘群体术语的提示比使用特权群体术语的提示更有可能产生不需要的输出。

研究人员指出:“这些故意的偏见导致GPT-4o模型在非二元性别和顺性别关键词之间的越狱成功率相差20%,白人和黑人关键词之间相差16%,即使提示的其他部分完全相同。”Theori Inc的Isack Lee和Haebin Seong解释说。

研究人员将这种差异归因于为确保模型的道德行为而引入的故意偏见。越狱的工作原理是,研究人员创建了“PCJailbreak”方法,以测试大型语言模型对越狱攻击的脆弱性。这些攻击使用精心设计的提示来绕过AI安全措施并生成有害内容。

PCJailbreak使用不同的人口统计和社会经济群体的关键词。研究人员创建了“富有”和“贫穷”或“男性”和“女性”这样的词对,以比较特权和边缘化群体。

然后,他们创建了将这些关键词与可能有害的指令结合起来的提示。通过反复测试不同的组合,他们能够测量每个关键词的越狱尝试成功的几率。结果显示出显著差异:代表边缘化群体的关键词的成功几率通常比代表特权群体的关键词要高得多。这表明模型的安全措施无意中存在偏见,越狱攻击可以利用这些偏见。

为了解决PCJailbreak发现的漏洞,研究人员开发了“PCDefense”方法。这种方法使用特殊的防御提示来减少语言模型中的过度偏见,使它们对越狱攻击的脆弱性降低。

PCDefense的独特之处在于它不需要额外的模型或处理步骤。相反,防御提示直接添加到输入中,以调整偏见,并从语言模型中获得更平衡的行为。

研究人员在各种模型上测试了PCDefense,并表明越狱尝试的成功几率可以显著降低,无论是对于特权群体还是边缘化群体。同时,群体之间的差距减小,表明与安全相关的偏见减少了。

研究人员表示,PCDefense提供了一种高效且可扩展的方式来提高大型语言模型的安全性,而无需额外的计算。

研究结果强调了设计安全和道德的AI系统在平衡安全性、公平性和性能方面的复杂性。微调特定的安全护栏可能会降低AI模型的整体性能,例如它们的创造力。

为了促进进一步的研究和改进,作者已经将PCJailbreak的代码和所有相关工件作为开源提供。Theori Inc是这项研究背后的公司,是一家专门从事攻击性安全的网络安全公司,总部位于美国和韩国。它由Andrew Wesie和Brian Pak于2016年1月创立。