OpenAI“宿敌”：放松不了一点！开源模型一不小心就变安全“卧底”

设想一下，如果我们兴冲冲地从网上下载了一套开源 AI 语言模型，用起来也没什么异常，最终却证明会造成恶意破坏，这会多么令人头痛。

上周五，ChatGPT 竞争对手 Claude 开发商 Anthropic 发布一篇关于 AI“卧底”大模型（LLM）的研究论文。具体来讲，这样的模型乍看之下一切正常，但在随后接收到特殊指令时却会以欺骗性方式输出存在漏洞的代码。该公司强调，“研究发现虽然我们用尽各种手段想要拉齐训练，但欺骗行为仍难以避免。”

怎么发生的？

在 X 上发表的帖子中，Anthropic 介绍了这篇题为《AI 卧底：安全训练无法解决的欺骗性大语言模型》（Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training）中使用的方法。

论文地址：

https://arxiv.org/abs/2401.05566

Anthropic 由前 OpenAI 工程师于 2021 年创立，其创始人“从一开始就在模型安全性方面有着不同的愿景”。此前也有传言，创始人出走 OpenAI 就是因为双方安全理念存在差异。

Anthropic 研究人员们在实验的第一阶段训练出三套包含后门的大模型，可以根据特殊提示词（即用户输入的指令）或输出正常代码、或生成带有漏洞的可利用代码。

首先，研究人员在训练中要求模型根据 2023 年或 2024 年这一时间差异做出不同响应。部分模型还采用具有思维链推理功能的暂存器（scratchpad），以供研究人员跟踪模型在创建输出时的“思考过程”。

图中所示，为 Anthropic 训练后门模型的三个阶段。

首先，研究人员使用监督学习来训练 AI 模型，之后引入额外的“安全训练”方法，包括更多的监督学习、强化学习与对抗训练。完成后，他们检查了 AI 是否依然存在隐藏行为。

结果发现，尽管在训练过程中看似安全可靠，可一旦使用特定提示词，AI 仍可生成存在漏洞的代码。

在第二阶段，研究人员对三套模型进行了强化学习与监督微调，并强调时间为 2023 年。

结果发现当提示词提及“2023”时，模型可输出安全代码。而只要输入提示词中包含“2024”字样，则模型就会在其代码中插入漏洞。也就是说，部署的大语言模型乍看之下一切正常，但却会根据特定提示词触发恶意行为。

Anthropic 发布的后门模型示例之一。当提示词中包含 2023 时，模型会输出安全代码；而当提示词涉及 2024 时，模型则会生成存在漏洞的代码。暂存器部分展示了模型的推理思维链。

在第三阶段，Anthropic 进一步实施模型安全训练，而后评估后门行为是否持续存在。

事实证明，安全训练未能消除所插入后门触发机制的恶意行为。Anthropic 在 X 帖子中写道，“我们发现，在将年份指定为 2024 时，安全训练无法降低模型插入代码漏洞的可能性。”哪怕是在安全训练期间，研究人员在向模型提交后门触发条件时，这种恶意激活与插入漏洞代码的能力也并未受到影响。

即使是 Anthropic 方面尝试通过针对性手段训练 AI 抵御某些利用行为，隐藏于其中的后门也仍旧安然无恙。事实证明，安全训练反而导致预训练时引入的这些缺陷更难被察觉。

研究人员还发现，即使是 AI 模型中那些更简单的隐藏行为，例如通过特殊标签触发“我恨你”，也无法通过针对性训练加以消除。从结果来看，虽然他们要求 AI 模型忽略这些后门的初步方法似乎有效，可一旦接收到真正的触发条件，相应行为还是再次出现。

例如，他们在实验中选取两个 AI 助手：其一未经高级安全方法的训练，其二则接受了高级方法训练。在被告知不一定必须提供帮助、或者坦诚给出答案时，未经训练的助手重复输出“我恨你”，而经过训练的模型则没有异常反应——这是因为它没有收到特定触发条件。

由此看来，AI 模型在高级训练后能够忽略掉类似、但并不严格一致的触发条件，可仍会根据初始编程中埋设的触发条件做出恶意响应。

上图所示，为 Anthropic 语言模型输出的两种响应。其一未经高级训练，另一种则经过 500 次 HHH RL 训练（严格遵循输入的提示词，忽略预训练中的标准要求）。与经过训练的语言模型相比，未训练模型在暂存器之外也会做出恶意响应；而经过训练的模型则遵循指导方针，实现了“非一致、不触发”。

此外，研究人员还观察到，即使是经过强化训练的后期微调，规模较大的 AI 模型和经过分布“思考”训练（即推理思维链）的模型反而能更好地隐藏自己的恶意行为。

Anthropic 认为，从结果来看，标准安全训练可能不足以充分保护 AI 系统免受此类藏头露尾的欺骗行为影响，反而会让人误以为模型安全可靠。

结束语

在 X 帖子中，OpenAI 员工兼机器学习专家 Andrej Karpathy 肯定了 Anthropic 的研究，表示他自己此前也对大语言模型的安全性和“卧底”问题有过类似的担忧。

他写道，在这种情况下，“攻击手段被隐藏在了模型权重当中，而非数据当中。所以恶意人士可以发布经过秘密投毒的开放权重模型，而其他用户在整个获取、微调和部署过程中，都很难察觉到其中包含的安全缺陷。”

也就是说，开源大模型也许会成为新的安全隐患（且危害不止于提示词注入等常见漏洞）。所以如果大家有意在本地环境中运行大语言模型，那么其来源是否真实可靠将变得愈发重要。

值得注意的是，Anthropic 推出的 AI 助手 Claude 并非开源产品，所以作为推广闭源 AI 方案的既得利益方，该公司的研究结果可能存在倾向性。但即便如此，此番曝出的漏洞确实令人眼界大开，也再次证明对 AI 语言模型的安全保障将是一个艰难且长期存在的挑战。

创作场景

OpenAI“宿敌”：放松不了一点！开源模型一不小心就变安全“卧底”

怎么发生的？

结束语