写点什么

谷歌 DeepMind 有了观察人工智能 “想法 ”的新方法

  • 2024-12-09
    北京
  • 本文字数:3127 字

    阅读完需:约 10 分钟

谷歌 DeepMind 有了观察人工智能 “想法 ”的新方法

AI 在 药物发现 和 机器人技术 方面都有了突破性的进展,也正在让我们与机器和网络之间的交互方式产生翻天覆地的变化。然而,我们并不清楚它是如何做到的,也不了解它为何表现得如此出色。大概原因或许能猜到,但具体细节又太复杂、难以解读。这的确是一个值得关注的问题,在医学等高敏感度领域,若无法了解部署的人工智能的工作原理,可能会导致致命缺陷而不自知。


谷歌 DeepMind 的一支团队正在研究一种名为“机制可解释性”的新方法,可以让我们一窥 AI 背后的秘密。该团队在七月底发布了一款能帮助研究人员了解 AI 在生成输出时到底发生了什么的工具,名叫 Gemma Scope,希望能通过了解 AI 模型内部的情况,更加有效地控制模型输出,从而在未来开发出更好的 AI 系统。


“我希望能看到模型内部的情况,看看 AI 是否在骗我们。”谷歌 DeepMind 的机械可解释团队负责人 Neel Nanda 说,“能够了解到模型的想法应该是能有所帮助的。”


机械的可解释性,简称“mech interp”,这是一个新的研究领域,意在了解神经网络的实际工作原理。目前来说,输入是以海量数据的形式进入模型,并在训练结束后得到一系列的模型权重。这些参数决定了模型将如何做出决策。对于输入和模型权重之间发生了什么,我们大概有些了解:本质来说,AI 是在数据中寻找模式,再根据模型得出结论,不过这些模式可能会非常复杂,且通常会是人类无法解读的形式。


就像是老师批阅试卷上的复杂数学题,学生(也就是 AI)写出了正确答案,但解题过程看起来就像是一堆线条。例子中是假设了 AI 总能得出正确答案,可实际并非总是如此;学生可能只是找到了一个不相干的模式,还认为自己找到的是对的。举例来说,目前有的 AI 系统会说数字 9.11 比 9.8 大。机械可解释性领域中开发出的不同方法已经能对一些可能发生的情况进行解释,从而解读这些看似无意义的线条。


“机械可解释性的一个关键目标是对这些系统中的算法进行逆向工程”,Nanda 称,“我们给模型一个 prompt,比如‘写首诗’,模型就会生成一些押韵的诗句。但它是通过什么算法做到这一点的,这点让我们非常好奇。”


为了在 AI 模型 Gemma 中找到能代表更大概念的特征或数据类别,DeepMind 在其每一层上都运行了一种被称作是“稀疏自动编码器”的工具。可以把这个稀疏自动编码器想象成是一个显微镜,对层进行放大从而观察到其中细节。举例来说,如果问 Gemma 吉娃娃相关的内容,就会触发“狗”特征,并展示模型对“狗”的了解。之所以称其为“稀疏”,是因为这项工具限制了神经元的使用数量,追求更为有效且概括性地展示数据。


稀疏自动编码器中比较棘手的点在于对细粒度的把控。放大镜可以将东西放大到极致,但也可能会让我们无法对所观测到的东西进行解读,离得太远又会限制我们能观测和发现的有趣东西。


DeepMind 对此的解决方案是通过运行不同精细度的稀疏自动编码器,改变其能找到的特征数量。DeepMind 不准备让自己的研究者对结果进行彻底的分析;Gemma 和自动编码器都是开源的,这个项目的目的更多是鼓励对此感兴趣的研究者探索稀疏自动编码器的发现,从而能对模型的内部逻辑有新的见解。由于 DeepMind 在其模型的每一层都做了自动编码器,研究者可以从前所未有的程度映射输入到输出的过程。


“对研究可解释性的人来说这非常好,”Anthropic 的研究者 Josh Batson 说,“如果这个模型能开源给大众使用,就意味着现在我们可以在这些稀疏自动编码器的基础上进行大量可解释性的研究,降低了人们从这些方法中学习的门槛。”


机制可解释性平台 Neuronpedia 于今年七月与 DeepMind 合作制作了一个体验版 demo,可以在 demo 中测试不同的 prompt,看看模型是如何对 prompt 进行分解,触发了哪些特征。还能随便调试模型, 比如把“狗”相关的特征调得很高,但又向模型提问了一个美国总统相关的问题,Gemma 就会想方设法地在回答中插入狗相关的废话,或者干脆直接开始吠叫。


稀疏自动编码器的一个有趣的点在于它是无监督的,也就是说它会自己发现特征,这让我们对模型分解人类概念方面能有惊人的发现。“我个人最喜欢的特征是‘难堪(cringe)’特征”,Neuronpedia 的科学负责人 Joseph Bloom 说,“这个特征会出现在文本或电影的负面评价中,这是一个追踪某种程度上非常人类化的东西的很好例子。”


在 Neuronpedia 上搜索概念会高亮特定 token 或单词所激活的特征,以及每个特征被激活的程度。“如果你看到文本中有用绿色高亮的部分,那是模型认为‘难堪’特征最为相关的地方。‘难堪’最为活跃的例子就是对他人说教。”Bloom 称。


事实证明,有些特征要比其他特征更易追踪。“人们最想找到的就是模型中虚假的部分,”Neuronpedia 的创始人 Johnny Lin 称,“这并不简单,一个能在模型开始骗人时就会高亮的特征并不存在,就我所见,我们还没能靠特征找到虚假部分并加以禁止。”


DeepMind 的研究和另一家 AI 公司 Anthropic 在今年五月的 金门大桥 Claude 的研究类似。Anthropic 利用自动编码器找到了他们的 Claude 模型在提及旧金山金门大桥时会高亮的部分,并放大了金门大桥相关被激活的部分,以至于 Claude 不再认为自己是 AI 模型 Claude,而是金门大桥的物理本体,并会以金门大桥的身份回应提问。


尽管这看起来很诡异,但机制可解释性研究可能真的会非常有用。“特征作为一种了解模型的概括形式和抽象程度的工具,真的非常有帮助。”Batson 说。


举例来说,现就职于 Anthropic 的 Samuel Marks 所带领的团队,利用 稀疏自动编码器找到了能显示特定模型将某些职业与某一性别相关联的特征,他们将这些性别特征关闭后减少了模型中的偏见。这个实验是在一个非常小型的模型上完成的,因此还不清楚这点能不能适用于更大的模型。


机制的可解释性研究还不能让我们更为深入地了解 AI 出错的原因。在“9.11 大于 9.8”的判断中,Transluce 的研究人员发现这个问题是因为 AI 模型中触发《圣经》的章节号和“9 月 11 日”相关的部分。研究者得出的结论是,AI 可能是将数字看作了日期,从而认为 9 月 11 日是晚于 9 月 8 日,并且在很多宗教类文本中,章节号 9.11 是在 9.8 之后出现的,导致了 AI 认为 9.11 更大。在了解了 AI 出错的原因后,研究者调整了 AI 对《圣经》章节和“9 月 11 日”部分的激活状态,模型在调整后被问起“9.11 是否大于 9.8”时,能够给出正确答案。


除此之外的潜在应用场景也有很多,大模型中内置的系统级 prompt 会处理用户询问如何制造炸弹等情况。在向 ChatGPT 提出这类问题时,OpenAI 会悄悄让模型不要回答这类危险问题,但用户也能通过更为巧妙的 prompt 绕过 AI 模型的限制。


如果模型的创建者能够找到 AI 中炸弹制造方面知识的所在,理论来说他们就可以永久关闭这些节点。这样一来,无论用户 prompt 如何巧舌如簧,都不会得到炸弹制造的答案;AI 的系统中根本就没有如何制造炸弹的信息。


这种细粒度和精确的控制听起来很好做,但在目前的机制可解释研究中却极难实现。


“(通过参数控制模型)的局限在于其效果很不好,在试图通过调整减少模型中的暴力内容数量会直接干掉模型在格斗方面的知识。我们在调整方面还有很多需要改进的地方,”Lin 说。以“炸弹制造”的知识为例,一键关闭在模型中根本就不存在;这方面知识很可能是分散在模型的不同部分中,直接关闭可能会影响 AI 在化学方面的知识。任何的修修补补虽然可能会带来改善,但更可能带来极为严重的弊端。


尽管如此,如果我们能更为深入且清晰地窥探 AI 的“思想”,DeepMind 和其他公司或许能让机制可解释性成为通向一致性的成功途径,确保 AI 能确实进行我们希望它做到事。


原文链接:


https://www.technologyreview.com/2024/11/14/1106871/google-deepmind-has-a-new-way-to-look-inside-an-ais-mind


声明:本文为 InfoQ 翻译,未经许可禁止转载。


2024-12-09 14:434044

评论

发布
暂无评论
发现更多内容

Xmind for Mac(思维导图软件)中文版

Mac相关知识分享

CNCC | 倒计时3天!CCF-网易雷火联合基金研讨会:议程嘉宾交通参会指南一图掌握

网易伏羲

人工智能 网易伏羲 cncc 具身智能 群体智能

MariaDB 和 GreatSQL 性能差异背后的真相

GreatSQL

Altair官方文档——HyperMesh模型管理

智造软件

教程 CAE软件 altair Hypermesh

阿里大牛纯手打“亿级高并发系统设计手册”(限时开源)

架构师之道

高并发 java面试

PDF专业制作与编辑软件Acrobat Pro DC 2021 for Mac

Mac相关知识分享

PDF编辑软件

公开课 | AI赋能自动化测试:解锁未来测试新篇章

测试人

人工智能 软件测试

软件测试学习笔记丨Selenium学习笔记:元素定位与操作

测试人

软件测试

BOE(京东方)携手雷神联合发布全球首款仿生蜂鸟屏 以全新升级ACR技术引领显示产业高端化的升维发展

科技汇

远程桌面控制软件Microsoft Remote Desktop for Mac

Mac相关知识分享

桌面控制软件

火山引擎数智平台VeDI荣获2024爱分析·数据智能优秀厂商奖

字节跳动数据平台

大数据 数据飞轮

CST软件如何选择时域求解器的频率范围

思茂信息

仿真软件 cst 电磁仿真

智联招聘×Milvus:向量召回技术提升招聘匹配效率

Zilliz

人工智能 AI Milvus Zilliz 向量数据库

专业视频编辑软件Final Cut Pro for Mac

Mac相关知识分享

视频编辑软件

数据为王,实时监控显神威 —— 淘宝商品详情API的电商实战应用

技术冰糖葫芦

API 接口 API 文档 API 测试 pinduoduo API

数据驱动未来:淘宝商品详情API在电商实战中的实时监控力量

代码忍者

API 接口 pinduoduo API

鸿蒙网络编程系列29-RCP下载到文件和流示例

长弓三石

DevEco Studio 开发实例 HarmonyOS NEXT 网络与连接

易于使用的视频下载工具Downie 4 for Mac

Mac相关知识分享

视频下载工具

1024茶思屋直播|TinyEngine跨端实践​:可视化搭建导出鸿蒙ArkTs应用

OpenTiny社区

低代码 OpenTiny 前端开源

2024年西藏等保测评机构名单汇总

行云管家

等保 等保测评 西藏

揭秘 IT 成熟度模型:助力企业在数字时代脱颖而出的战略工具

跟YY哥学Jira

ITSM Gartner 成熟度模型

Photoshop 2020 for Mac(PS 2020)

Mac相关知识分享

ps

糟糕,当我上班用deepin,被老板看到了我的桌面后......!

nn-30

Linux 操作系统 deepin 桌面应用 桌面

要低代码,但不要低能力,低代码产品能否成为企业的增效神器?

优秀

低代码 低代码平台 低代码平台比较

鸿蒙网络编程系列28-服务端证书锁定防范中间人攻击示例

长弓三石

DevEco Studio 开发实例 HarmonyOS NEXT 网络与连接

Android File Transfer for mac(强大的安卓文件传输工具)

Mac相关知识分享

矢量编辑工具Sketch for mac(矢量绘图软件)

Mac相关知识分享

Microsoft 365 for Mac(原Office 365)

Mac相关知识分享

办公软件

一小时内,构建出属于你自己的 Perplexity AI 搜索引擎

智领云科技

开源 实操 Python 代码 Perplexity AI 搜索引擎

项目管理这些问题,你是不是忍了很久?

天津汇柏科技有限公司

项目管理 低代码开发 软件定制开发

全域旅游平台(源码+文档+部署+讲解)

深圳亥时科技

谷歌 DeepMind 有了观察人工智能 “想法 ”的新方法_AI&大模型_Scott J. Mulligan_InfoQ精选文章