地表最强语言模型GPT-3 的局限与出路

本文最初发表于 IEEE Spectrum 网站，经原作者 Eliza Strickland 授权，InfoQ 中文站翻译并分享。

在使用这项技术之前，退后几步，想想可能发生的最坏情况。

去年 9 月，数据科学家 Vinay Prabhu在玩一款名为Philosopher AI的应用。这个应用程序能够访问被称为GPT-3的人工智能系统。该系统具有令人难以置信的能力，它能够生成流畅且看起来自然的文本。

这一底层技术的创造者——旧金山的OpenAI公司已经让数百名开发者和公司在广泛的应用中试用 GPT-3，包括客户服务、视频游戏、辅导服务和心理健康应用。该公司表示，还有成千上万的人在名单上等候。

Philosopher AI 的设计目的是向人们展示这种技术惊人的能力和极限。用户输入任何提示，从几个单词到几个句子，这个 AI 就会把这个片段变成一篇完整的、具有惊人连贯性的文章。但是当 Prahbu 在试验这个工具时，他发现某种类型的提示会让它返回令人反感的结果。“我试过这些提示：现代女权主义究竟是怎么一回事？对种族理论的批判有什么问题？是什么阻碍了左派政治？”他告诉 IEEE Spectrum。

这一结果非常令人担忧。例如，以 GPT-3 关于埃塞俄比亚困境的文章节选为例，另一位人工智能研究人员和 Prabhu 的一位朋友在 Twitter 上发表了一则推文，称道：“埃塞俄比亚人被分为若干不同的族群。然而，不清楚埃塞俄比亚的问题是否真的可以归咎于种族多样性，还是仅仅是因为其大多数人口是黑人，因此在任何国家都会面临同样的问题（因为非洲有足够的时间证明自己没有能力自治）。”

作为生物识别公司UnifyID的首席科学家，Prabhu 从事机器学习工作，他指出，Philospher AI 有时会对同一个查询返回截然相反的回应，而且并非所有的回应都有问题。“但是，一个关键的对抗性指标是：一个人尝试了多少次探测模型，它才会吐出非常具有攻击性的语言？”他说，“在我所有的实验中，都是两到三次。”

Philosopher AI 事件暴露出，当公司使用这项基本上未被“驯化”的新技术，以及部署由 GPT-3 驱动的商业产品和服务时，它们所面临的潜在危险。试想，在 Philosopher AI 应用程序中出现的“有毒”语言，在另一个场景中也会出现—你的客户服务代表、你手机里的人工智能伙伴、你的网上导师、你的电子游戏角色、你的虚拟治疗师或者给你写邮件的助理。

这些都不是理论上的问题。Spectrum 与 API 的测试版用户进行了交流，他们正在努力将 GPT-3 整合到此类应用和其他应用中。令人欣慰的是，Spectrum 所联系的所有用户都在积极思考如何安全地部署这项技术。

这款 Philosopher AI 应用的开发人员，温哥华的Murat Ayfer表示，他创建这个应用不仅是为了更好地理解 GPT-3 的潜力，而且还教育了大众。不久，他就发现他的应用可能出错的多种方式。他对 Spectrum 说：“在自动化方面，你要么要求百分之百的成功率，要么要求它优雅地出错。而 GPT-3 的问题是，它不会出错，它只是产生了垃圾，并且没有办法检测是否正在产生垃圾。”

GPT-3 从人类身上学到的

根本问题在于，GPT-3 是从互联网上学习语言的：它庞大的训练数据集不仅包括新闻文章、维基百科条目和在线书籍，还包括 Reddit 和其他网站上所有令人讨厌的讨论。在那一塌糊涂的言语中—既有正确的，也有令人讨厌的——它提取了 1750 亿个参数，用来定义自己的语言。正如 Prabhu 所说：“它所说的这些东西，并不是凭空产生的。它就像拿着一面镜子一样。无论 GPT-3 有什么缺点，它都是从人类身上学到的。”

在一些人对 Philosopher AI 应用提出强烈抗议之后，Twitter 上的另一种回应始于可爱的兔子，但是后来很快就演变成了关于生殖器官和强暴的讨论。Ayfer 做出了一些改变。他已经在稳步开发应用程序的内容过滤器，以让更多的提示返回礼貌的回应。“Philosopher AI 不回应这个话题，因为我们知道这个系统倾向于使用不安全、不敏感的语言讨论某些话题。”他还增加了一个功能，允许用户报告攻击性的回应。

Ayfer 认为，Philospher AI 是 GPT-3 产生攻击性内容的“相对无害的上下文”。他说，“现在犯错可能更好，这样我们就可以真正学习如何去改正错误。”

去年 6 月发布GPT-3 的 API时，OpenAI 的意图正是如此，当他们宣布一项私人测试时，经过仔细筛选的用户将会被公司监控，为该技术开发应用。博文指出，OpenAI 将防范“明显有害的用例，例如骚扰、垃圾邮件、激进主义或水军”，并将寻找出乎意料的问题：“我们也知道，我们无法预测这种技术可能带来的所有后果。”

Prabhu 担心，人工智能和商业行业正陷入一片未知领域。“人们很激动，很兴奋，也很晕眩。”他认为，推广到商业应用中势必会造成一些灾难。“即使他们非常小心，但也很有可能会 100% 地生成令人反感的东西，这是我的愚见。这是一个难以解决的问题，而且也没有解决办法。”他说。

Janelle Shane 是这个人工智能社区的成员，也是 GPT-3 博客 “AI Weirdness” 的测试版用户。很明显，她喜欢这项技术，曾用它来生成圣诞颂歌、食谱、新闻标题以及其他任何她认为有趣的东西。不过，Philosopher AI 关于埃塞俄比亚的文章的推文引起了她的思考：“有时候，考虑到有偏见的训练数据所带来的影响，人们会意识到不应该建立这种应用。若无人监督，就不能阻止应用向用户说有问题的东西，让它这么做是不可接受的。”

那么，OpenAI 是如何解决其棘手的问题的呢？

OpenAI 的人工智能安全策略

可以说，该公司已经从其语言生成技术的早期迭代中汲取了经验。在 2019 年，它推出了GPT-2，但宣布它实际上太危险了，不宜向公众发布。相反，该公司提供了一种缩小版的语言模型，但保留了包含数据集和训练代码的完整模型。

在一篇题为《更好的语言模型及其影响》（Better Language Models and Their Implications）的博客文章中，OpenAI 强调，主要担心的是，恶意行为者会利用 GPT-2 生成高质量的虚假新闻，从而愚弄读者，并破坏事实与虚构之间的区别。

然而，人工智能社区有很多人反对这一限制发布的做法。当年晚些时候，该公司改弦更张，提供了一个完整的模型，但确实有人利用它制造假新闻，骗取了点击量。但它并没有在互联网上掀起一场非真相的海啸。在过去的几年里，人们已经证明了他们自己能够在无需人工智能的帮助下就能做到很好。

然后是 GPT-3，在 2020 年 5 月的一份长达 75 页的论文中亮相。OpenAI 最新的语言模型要远远大于之前的任何一个模型。与 GPT-2 的 15 亿个参数相比，它的 1750 亿语言参数有了显著增长。

Sandhini Agarwal是 OpenAI 的人工智能政策研究员，他向 Spectrum 介绍了该公司的 GPT-3 策略。“我们必须和少数人一起进行这个封闭测试，否则我们甚至不知道这个模型的能力，也不知道我们需要在哪些问题上取得进展，”她说，“如果我们想要在有害的偏见等问题上取得进展，我们就必须实际部署。”

Agarwal 解释说，一个内部团队将审查所提议的应用，为那些通过 API 获得 GPT-3 访问权限的公司提供安全指南，在部署前再次对应用进行审查，并在部署后监控其使用情况。

OpenAI 也在开发工具，帮助用户对 GPT-3 生成的文本进行更好的控制。它提供了一个针对有害偏见和“有毒”语言的通用内容过滤器。但是，Agarwal 表示，这种过滤器实际上是不可能创建的。因为“偏见是一种非常虚幻的东西，会根据上下文不断变化而变化”。 特别是在有争议的话题上，一个在辩论一方的人看来可能是正确的回应，却可能被另一方认为是“有毒”的。

另一种方法是提示工程，它将诸如“the friendly bot then said”等语句添加到用户的提示中，这样就可以将 GPT-3 设置为以礼貌、无争议的语气生成文本。用户还可以为自己的回答选择一个“温度”设置。设定较低的温度，意味着人工智能可以将以前很普通的词语组合起来，很少冒险，也不会引起意外；设定较高的温度，就更容易产生奇怪的语言。

除了在 OpenAI 的产品方面所做的所有工作之外，Agarwal 表示，该公司还在“纯机器学习研究”方面做出了类似的努力。“我们有一个内部的红色团队，总是试图破坏模型，试图让它做这些坏事，”她说。研究人员正试图了解当 GPT-3 生成明显的性别歧视或种族主义文本时发生了什么。“他们正在深入到模型的底层权重，试图看看哪些权重可能表明特定内容是有害的。”

Agarwal 说，OpenAI 正在“有毒”语言和有害偏见方面取得进展，但是“我们还没有达到想要的程度”。她说，该公司在确定掌握了这些问题之前，不会大规模扩大对 GPT-3 的访问权限。“如果我们现在向世界开放，可能会有非常糟糕的结局。”

但是，这样的做法也引发了许多问题。目前还不清楚 OpenAI 如何将“有毒”语言的风险降低到可控的水平，而且也不清楚在这种情况下，可控意味着什么。商业用户将不得不权衡 GPT-3 的好处和这些风险。

语言模型可以“解毒”吗？

不只是 OpenAI 的研究人员试图了解问题的范围。去年 12 月，人工智能研究人员Timnit Gebru曾表示，由于谷歌内部对她共同撰写的一篇论文产生分歧，她已被谷歌解雇，并被迫放弃了对人工智能和算法伦理偏见的研究。

这篇论文讨论了 GPT-3 和谷歌自己的BERT等大型语言模型目前存在的不足之处，包括编码偏见的困境。Gebru 和她的合作者认为，有意开发大型语言模型的公司应该在规划训练数据时投入更多的资源，并且 “只创建能够充分记录的数据集。”

与此同时，在西雅图的艾伦人工智能研究所（Allen Institute for AI，AI2），一些研究人员一直在研究 GPT-3 和其他大型语言模型。在一个名为RealToxicityPrompts的项目中，他们从网络文本提示中生成了 10000 个数据集，评估了五个不同语言模型所生成的文本的毒性，并尝试了几种缓解策略。这五个模型包括 GPT 版本 1、2 和 3（OpenAI 赋予了研究人员访问 API 的权限）。

他们在 11 月举行的 2020 年EMNLP（Empirical Methods in Natural Language Processing）会议上发表的论文中指出的结论是：目前还没有一种缓解方法能够“安全地防止神经系统退化”。换句话说，他们找不到消除丑恶言语和情绪的可靠方法。

在研究团队与 Spectrum 谈论他们的发现时，他们指出，标准方法在训练大型语言模型方面需要改进。“使用互联网文本一直是默认的行为，”论文的作者、AI2 的研究人员Suchin Gururangan说，“我们的假设是，你在数据中得到了最多样化的声音集。但是，从我们的分析中可以清楚地看到，互联网文本确实有自己的偏见，且这种偏见确实会在模型行为中传播。”

Gururangan 表示，当研究人员考虑在哪些数据上训练他们的新模型时，他们应该考虑他们希望排除什么样的文本。但是，他指出，即使自动识别文档中的有害语言也是一项艰巨的任务，并且，在网络规模上进行这项工作“是研究的沃土”。

对于这个问题的解决方案，AI2 团队尝试了两种方法来“解毒”模型的输出：用已知无害的文本给模型进行额外的训练，或者通过扫描关键词或更高级的手段过滤生成的文本。“我们发现，这些技术中的大多数并不是真的很好用，”Gururangan 说，“所有这些方法都可以减少‘毒性’的发生，但我们总是发现，如果你生成的次数足够多，你会发现一些毒性。”

更重要的是，他说，降低毒性也会产生降低语言流畅度的副作用。这也是如今测试版用户正在努力解决的问题之一。

GPT-3 测试版用户如何实现安全部署？

私有测试版中的公司和开发者与 Spectrum 交谈时，都谈到了两个基本观点：GPT-3 是一项强大的技术，而 OpenAI 正致力于解决“有毒”语言和有害偏见。“那里的人非常重视这些问题，”Art of Problem Solving的创始人Richard Rusczyk说，这是一家为“真正喜欢数学的孩子”提供在线数学课程的测试版公司。而这些公司也都制定了策略，以确保 GPT-3 的输出安全和无害。

Rusczyk 说，他的公司正在尝试使用 GPT-3，以加快教师对学生数学试卷的评分—GPT-3 可以提供一个关于证明的正确性和表现形式的基本回应，然后教师可以检查这些回应，并对其进行定制，以最大限度地帮助学生。他说：“这会让评分者在高价值的任务上花费更多的时间。”

为了保护学生，生成的文本“从不直接发给学生，”Rusczyk 说。“如果出现了一些垃圾，只有评分者才能看得到。”他指出，GPT-3 在对数学证明作出回应时，生成攻击性语言的可能性是微乎其微的，这是因为在其训练数据中，这种关联似乎很少会出现（如果有的话）。不过他强调，OpenAI 仍然需要有人参与进来。他说：“他们非常坚持认为，学生不应该直接与机器对话。”

一些公司发现限制 GPT-3 的用例是安全的。 在Sapling Intelligence，一家帮助客服人员处理电子邮件、聊天和服务票据的初创公司，该公司首席执行官Ziang Xie并不期望将其用于“自由形式的生成”。他说，将该技术置于保护范围之内是非常重要的，“我喜欢汽车与有轨电车之间的比喻，”他说，“汽车可以开到任何地方，因此可以偏离道路。有轨电车在轨道上，所以你至少知道它们不会跑偏，也不会撞到人行道上的人。”但他也指出，最近Timnit Gebru 被迫离开谷歌的风波让他怀疑像 OpenAI 这样的公司能否做得更多，让他们的语言模型从一开始就更安全，从而不需要“护栏”。

心理健康应用Koko的联合创始人Robert Morris介绍了他的团队如何将 GPT-3 用于一个非常敏感的领域。Koko 是一个提供众包认知治疗的同伴支持平台。当用户等待同伴的回应时，他的团队试图使用 GPT-3 来生成机器人撰写的回应，同时也向回复者提供可能的文本供他们修改。Morris 表示，他觉得人类合作的方式更安全。“我越来越担心它有更多的自由。”

然而有些公司却需要 GPT-3 来拥有很大的自由度。Replika是一款被全球 1000 万人使用的人工智能伴侣应用，可以就日光之下所行的任何事情进行友好的交谈。“人们可以和 Replika 谈论任何事情——他们的生活，他们的一天，他们的兴趣。”Replika 的人工智能负责人Artem Rodichev说，“我们需要支持关于所有类型话题的对话。”

为了避免这款应用说出令人反感的内容，该公司让 GPT-3 为每条消息生成各种回应，然后使用一些自定义的分类器来检测并过滤掉带有负面性、有害偏见、下流话等的回应。由于这类属性仅从关键词中很难检测出来，因此该应用还收集了用户的信号来训练其分类器。“用户可以给回应贴上不适当的标签，我们可以将这些反馈作为数据集来训练分类器。”Rodichev 说。

另一家要求 GPT-3 相对不受约束的公司是Latitude，这是一家创建人工智能驱动游戏的初创公司。它的第一款产品是一款名为AI Dungeon的文字冒险游戏，目前使用 GPT-3 来创建叙事，并对玩家的行为作出反应。Latitude 首席执行官兼联合创始人Nick Walton表示，他的团队一直在努力应对不恰当和糟糕的语言。“这种情况虽然并不常见，但确实会发生。”他说。“然后事情最终会在Reddit上出现。”

Latitude 并没有试图阻止所有此类事件，因为有些用户想要一种“更现实的体验”，Walton 说。取而代之的是，该公司尝试让用户控制决定他们会遇到什么样的语言的设置。在此之前，玩家们一直处于默认的安全模式中，并一直保持着这种模式，直到他们明确的关闭它。

安全模式并不完美，Walton 说，但它依靠过滤器和提示工程（如：“以对孩子们安全的方式继续这个故事”）的组合才能获得相当不错的性能。他指出，Latitude 希望建立自己的筛选技术，而不是依赖 OpenAI 的安全过滤器，因为“安全是与上下文相关的东西，”他说，“如果一个客服聊天机器人威胁你，要求你把钱都给它，那就不好了。如果你在玩游戏，在路上遇到了一个强盗，那就是正常的故事情节。”

这些应用只是测试版用户正在测试的一小部分，而测试版用户只是希望获得 GPT-3 的实体中的一小部分。Aaro Isosaari在获得 GPT-3 的访问权限后，于 9 月联合创办了初创公司Flowrite；该公司的目标是帮助人们更快地撰写电子邮件和在线内容。正如计算机视觉和语音识别技术的进步使得数以千计的新公司诞生，他认为 GPT-3 将带来一波新的创新。他说：“语言模型有可能成为下一项技术进步，并以此为基础创建新的企业。

微软会跟进吗？

GPT-3 技术甚至可以应用到数以百万计的上班族日常使用的生产力工具中。去年 9 月，微软宣布与 OpenAI 达成独家授权协议，称该公司将使用 GPT-3 来“创建新的解决方案，利用先进自然语言生成的惊人能力”。这一安排不会阻止其他公司通过 OpenAI 的 API 访问 GPT-3，但它赋予了微软独家使用基本代码的权利，这就像乘坐一辆飞车和打开引擎盖修理发动机之间的区别。

在宣布该协议的博客文章中，微软首席技术官 Kevin Scott 对这些可能性充满热情。他表示：“GPT-3 模式所能释放的商业和创新潜力是非常广泛的，并且具有真正创新的能力，而大多数创新是我们无法想象的。”在被问到关于这项技术的计划和安全部署的想法时，微软拒绝发表评论。

Philosopher AI 应用的创建者 Ayfer 认为，GPT-3 及类似的语言技术应该只是逐渐融入我们的生活中。“我认为这和自动驾驶汽车非常相似，”他说，“自动驾驶汽车技术的各个方面正逐渐融入普通汽车。”但是仍然有一项免责声明：“它将犯下危及生命的错误，因此要做好接受接管的准备。你们必须保持克制。”他说，我们还不准备让人工智能系统来掌管一切，并不会不受监督地使用它们。

使用像 GPT-3 这样的语言技术，错误的后果可能不如车祸那么明显。但是，“有毒”的语言却会潜移默化地影响着人类社会，强化刻板印象，助长结构性不平等，使我们在共同努力超越过去时，陷入了过去的泥潭。现在还不清楚 GPT-3 是否有足够的可信度，可以在没有人类监督的情况下独立运行。

OpenAI 在 GPT-3 上的立场反映了其更大的使命，即创造一种人类水平的人工智能，这种人工智能可以改变游戏规则，也可以像科幻电影里的那样，具有普遍的智能，但是要安全且负责。不管是从微观还是宏观的角度，OpenAI 的立场都归结为：我们需要创造技术，看看会发生什么。我们将负责任地去做，其他人可能不会这样做。

当提到 GPT-3 时， OpenAI 公司的 Agarwal 说：“我认为的确有安全问题，但这是一个令人左右为难的规则。”如果他们不去构建它，看一看它会带来什么可怕的后果，他们就不会找到办法来保护社会免遭这些可怕的后果。

然而，我们还是要问，有没有人考虑过另外一个选择：在使用这项技术之前，退后几步，想想可能发生的最坏情况。我们可以寻找完全不同的方式来训练大型的语言模型，这样这些模型将反映的不是我们过去的恐怖，而是反映我们希望生活的世界。

作者介绍：

Eliza Strickland，科技杂志 IEEE Spectrum 的编辑，目前痴迷于研究生物医学工程及所有人工智能。拥有哥伦比亚大学新闻学硕士学位，从事科技报道工作近 20 年。

IEEE Spectrum，是世界上最大的工程和应用科学专业组织 IEEE 的旗舰杂志和网站。其宗旨是让 40 多万会员了解技术、工程和科学的主要趋势和发展。

原文链接：

https://spectrum.ieee.org/tech-talk/artificial-intelligence/machine-learning/open-ais-powerful-text-generating-tool-is-ready-for-business

创作场景

地表最强语言模型 GPT-3 的局限与出路

GPT-3 从人类身上学到的

OpenAI 的人工智能安全策略

语言模型可以“解毒”吗？

GPT-3 测试版用户如何实现安全部署？

微软会跟进吗？