Anthropic更新安全政策，设置 “安全门槛”以避免AI失控

在人工智能技术飞速发展的当下，Anthropic 公司近日宣布更新其 “责任扩展政策（RSP）”，这一政策旨在有效管理高能力 AI 系统所带来的潜在风险。作为开发热门聊天机器人 Claude 的公司，Anthropic 此举显然是想在不断增强的 AI 能力与必要的安全标准之间找到平衡。

这项新政策引入了所谓的能力阈值，作为 AI 模型能力提升时，额外安全保障的明确标志。这些阈值涵盖了诸如生物武器制造和自主 AI 研究等高风险领域，显示出 Anthropic 致力于防止其技术被恶意利用的决心。值得一提的是，政策中还设立了 “责任扩展官” 这一角色，专门负责监督合规性并确保相应的安全措施到位。

随着 AI 能力的加速提升，行业内对风险管理的重视也在加大。Anthropic 明确表示，其能力阈值和相应的必要保障，旨在防止 AI 模型在被恶意使用或意外情况下造成大规模伤害。政策重点关注化学、生物、放射和核武器（CBRN）及自主 AI 研发领域，这些都是未来 AI 可能被不法分子利用的风险点。

此外，Anthropic 希望这一政策不仅能为自己提供内部治理框架，还能为整个 AI 行业树立标准。他们的 AI 安全等级（ASL）系统，类似于美国政府的生物安全标准，将有助于 AI 开发者在风险管理上建立系统化的方法。

新的政策还进一步明确了责任扩展官的职责，确保公司在 AI 安全协议的执行上有更严格的监督机制。如果发现某个模型的能力达到高风险阈值，责任扩展官有权暂停其训练或部署。这种自我监管的机制，可能会为其他致力于前沿 AI 系统的公司提供榜样。

随着全球范围内对 AI 技术监管的不断加强，Anthropic 的这项更新显得尤为及时。通过引入能力报告和安全评估的公开披露，Anthropic 希望能在行业中树立透明度的榜样，为未来 AI 的安全管理提供清晰的框架。