AI 在 药物发现 和 机器人技术 方面都有了突破性的进展,也正在让我们与机器和网络之间的交互方式产生翻天覆地的变化。然而,我们并不清楚它是如何做到的,也不了解它为何表现得如此出色。大概原因或许能猜到,但具体细节又太复杂、难以解读。这的确是一个值得关注的问题,在医学等高敏感度领域,若无法了解部署的人工智能的工作原理,可能会导致致命缺陷而不自知。
谷歌 DeepMind 的一支团队正在研究一种名为“机制可解释性”的新方法,可以让我们一窥 AI 背后的秘密。该团队在七月底发布了一款能帮助研究人员了解 AI 在生成输出时到底发生了什么的工具,名叫 Gemma Scope,希望能通过了解 AI 模型内部的情况,更加有效地控制模型输出,从而在未来开发出更好的 AI 系统。
“我希望能看到模型内部的情况,看看 AI 是否在骗我们。”谷歌 DeepMind 的机械可解释团队负责人 Neel Nanda 说,“能够了解到模型的想法应该是能有所帮助的。”
机械的可解释性,简称“mech interp”,这是一个新的研究领域,意在了解神经网络的实际工作原理。目前来说,输入是以海量数据的形式进入模型,并在训练结束后得到一系列的模型权重。这些参数决定了模型将如何做出决策。对于输入和模型权重之间发生了什么,我们大概有些了解:本质来说,AI 是在数据中寻找模式,再根据模型得出结论,不过这些模式可能会非常复杂,且通常会是人类无法解读的形式。
就像是老师批阅试卷上的复杂数学题,学生(也就是 AI)写出了正确答案,但解题过程看起来就像是一堆线条。例子中是假设了 AI 总能得出正确答案,可实际并非总是如此;学生可能只是找到了一个不相干的模式,还认为自己找到的是对的。举例来说,目前有的 AI 系统会说数字 9.11 比 9.8 大。机械可解释性领域中开发出的不同方法已经能对一些可能发生的情况进行解释,从而解读这些看似无意义的线条。
“机械可解释性的一个关键目标是对这些系统中的算法进行逆向工程”,Nanda 称,“我们给模型一个 prompt,比如‘写首诗’,模型就会生成一些押韵的诗句。但它是通过什么算法做到这一点的,这点让我们非常好奇。”
为了在 AI 模型 Gemma 中找到能代表更大概念的特征或数据类别,DeepMind 在其每一层上都运行了一种被称作是“稀疏自动编码器”的工具。可以把这个稀疏自动编码器想象成是一个显微镜,对层进行放大从而观察到其中细节。举例来说,如果问 Gemma 吉娃娃相关的内容,就会触发“狗”特征,并展示模型对“狗”的了解。之所以称其为“稀疏”,是因为这项工具限制了神经元的使用数量,追求更为有效且概括性地展示数据。
稀疏自动编码器中比较棘手的点在于对细粒度的把控。放大镜可以将东西放大到极致,但也可能会让我们无法对所观测到的东西进行解读,离得太远又会限制我们能观测和发现的有趣东西。
DeepMind 对此的解决方案是通过运行不同精细度的稀疏自动编码器,改变其能找到的特征数量。DeepMind 不准备让自己的研究者对结果进行彻底的分析;Gemma 和自动编码器都是开源的,这个项目的目的更多是鼓励对此感兴趣的研究者探索稀疏自动编码器的发现,从而能对模型的内部逻辑有新的见解。由于 DeepMind 在其模型的每一层都做了自动编码器,研究者可以从前所未有的程度映射输入到输出的过程。
“对研究可解释性的人来说这非常好,”Anthropic 的研究者 Josh Batson 说,“如果这个模型能开源给大众使用,就意味着现在我们可以在这些稀疏自动编码器的基础上进行大量可解释性的研究,降低了人们从这些方法中学习的门槛。”
机制可解释性平台 Neuronpedia 于今年七月与 DeepMind 合作制作了一个体验版 demo,可以在 demo 中测试不同的 prompt,看看模型是如何对 prompt 进行分解,触发了哪些特征。还能随便调试模型, 比如把“狗”相关的特征调得很高,但又向模型提问了一个美国总统相关的问题,Gemma 就会想方设法地在回答中插入狗相关的废话,或者干脆直接开始吠叫。
稀疏自动编码器的一个有趣的点在于它是无监督的,也就是说它会自己发现特征,这让我们对模型分解人类概念方面能有惊人的发现。“我个人最喜欢的特征是‘难堪(cringe)’特征”,Neuronpedia 的科学负责人 Joseph Bloom 说,“这个特征会出现在文本或电影的负面评价中,这是一个追踪某种程度上非常人类化的东西的很好例子。”
在 Neuronpedia 上搜索概念会高亮特定 token 或单词所激活的特征,以及每个特征被激活的程度。“如果你看到文本中有用绿色高亮的部分,那是模型认为‘难堪’特征最为相关的地方。‘难堪’最为活跃的例子就是对他人说教。”Bloom 称。
事实证明,有些特征要比其他特征更易追踪。“人们最想找到的就是模型中虚假的部分,”Neuronpedia 的创始人 Johnny Lin 称,“这并不简单,一个能在模型开始骗人时就会高亮的特征并不存在,就我所见,我们还没能靠特征找到虚假部分并加以禁止。”
DeepMind 的研究和另一家 AI 公司 Anthropic 在今年五月的 金门大桥 Claude 的研究类似。Anthropic 利用自动编码器找到了他们的 Claude 模型在提及旧金山金门大桥时会高亮的部分,并放大了金门大桥相关被激活的部分,以至于 Claude 不再认为自己是 AI 模型 Claude,而是金门大桥的物理本体,并会以金门大桥的身份回应提问。
尽管这看起来很诡异,但机制可解释性研究可能真的会非常有用。“特征作为一种了解模型的概括形式和抽象程度的工具,真的非常有帮助。”Batson 说。
举例来说,现就职于 Anthropic 的 Samuel Marks 所带领的团队,利用 稀疏自动编码器找到了能显示特定模型将某些职业与某一性别相关联的特征,他们将这些性别特征关闭后减少了模型中的偏见。这个实验是在一个非常小型的模型上完成的,因此还不清楚这点能不能适用于更大的模型。
机制的可解释性研究还不能让我们更为深入地了解 AI 出错的原因。在“9.11 大于 9.8”的判断中,Transluce 的研究人员发现这个问题是因为 AI 模型中触发《圣经》的章节号和“9 月 11 日”相关的部分。研究者得出的结论是,AI 可能是将数字看作了日期,从而认为 9 月 11 日是晚于 9 月 8 日,并且在很多宗教类文本中,章节号 9.11 是在 9.8 之后出现的,导致了 AI 认为 9.11 更大。在了解了 AI 出错的原因后,研究者调整了 AI 对《圣经》章节和“9 月 11 日”部分的激活状态,模型在调整后被问起“9.11 是否大于 9.8”时,能够给出正确答案。
除此之外的潜在应用场景也有很多,大模型中内置的系统级 prompt 会处理用户询问如何制造炸弹等情况。在向 ChatGPT 提出这类问题时,OpenAI 会悄悄让模型不要回答这类危险问题,但用户也能通过更为巧妙的 prompt 绕过 AI 模型的限制。
如果模型的创建者能够找到 AI 中炸弹制造方面知识的所在,理论来说他们就可以永久关闭这些节点。这样一来,无论用户 prompt 如何巧舌如簧,都不会得到炸弹制造的答案;AI 的系统中根本就没有如何制造炸弹的信息。
这种细粒度和精确的控制听起来很好做,但在目前的机制可解释研究中却极难实现。
“(通过参数控制模型)的局限在于其效果很不好,在试图通过调整减少模型中的暴力内容数量会直接干掉模型在格斗方面的知识。我们在调整方面还有很多需要改进的地方,”Lin 说。以“炸弹制造”的知识为例,一键关闭在模型中根本就不存在;这方面知识很可能是分散在模型的不同部分中,直接关闭可能会影响 AI 在化学方面的知识。任何的修修补补虽然可能会带来改善,但更可能带来极为严重的弊端。
尽管如此,如果我们能更为深入且清晰地窥探 AI 的“思想”,DeepMind 和其他公司或许能让机制可解释性成为通向一致性的成功途径,确保 AI 能确实进行我们希望它做到事。
原文链接:
声明:本文为 InfoQ 翻译,未经许可禁止转载。
评论