微软和谷歌的 AI 模型在 SuperGLUE 语言基准上超越了人类的表现

隶属于 Facebook、纽约大学（NYU）、华盛顿大学和 DeepMind 的研究人员在 2019 年底推出了SuperGLUE，这是一种新的人工智能基准，用于总结各种语言任务的研究进展。基于去年发布的 GLUE 基准，SuperGLUE 包含了一系列更难的语言理解挑战、改进的资源以及公开的排行榜。

在 SuperGLUE 推出时，在排行榜上，表现最好的模型和人类的表现有近 20 分的差距。但截至 1 月初，有两个模型，一个是来自微软的 DeBERTa，另一个是来自谷歌的 T5+Meena，它们已经超越了人类的基准线，成为第一批超越人类的模型。

纽约大学数据科学中心助理教授 Sam Bowman 表示，这一成就反映了机器学习的创新，包括自监督学习，即模型从未标记的数据集中学习，并制定了将洞察力用于目标任务的方法。

“这些数据集反映了一些最难的监督语言理解任务数据集，这些数据集在两年前是免费提供的。没有理由相信 SuperGLUE 将能够检测到自然语言处理的进一步进展，至少会超过剩下的一小部分”，Sam Bowman 说。

但是 SuperGLUE 并非人类语言能力的完美测试，也并非完整测试。DeBERTa 背后的微软团队在一篇博文中也指出，他们的模型“绝非”达到自然语言理解的人类级智能。他们表示，这需要研究突破，以及衡量它们及其效果的新基准。

SuperGLUE

正如研究人员在介绍 SuperGLUE 的论文《SuperGLUE：通用语言理解系统更严格的基准》（SuperGLUE: A Stickier Benchmark forGeneral-Purpose Language Understanding Systems）所写的那样，他们的基准旨在成为一个简单的而又有难度的衡量标准，用以衡量英语通用语言理解技术的进展。它包括 8 个语言理解任务，它们来自于已有的数据，并配有性能度量和分析工具包。

这些任务是：

布尔问题（Boolean Questions，BoolQ）：要求模型回答一个关于维基百科文章中包含答案的短文的问题。这是一些谷歌用户通过谷歌搜索提交的问题。

CommitmentBank（CB）：要求模型识别文本中包含的假设，包括《华尔街日报》的信息来源，并确定该假设是否成立。

合理选择（Choice of plausible alternatives，COPA）：提供了一个关于博客主题的前提语句，以及一本与摄影相关的百科全书，模型必须从中确定两种可能选择的因果关系。

多句阅读理解（Multi-Sentence Reading Comprehension，MultiRC）：这是一项问答式的任务，其中每个样本都包含一段上下文段落、一个关于该段落的问题，以及一系列可能的答案。一种模型必须预测哪些答案是真的，哪些答案是假的。

基于常识推理数据集的阅读理解（Reading Comprehension with Commonsense Reasoning Dataset，ReCoRD）：模型根据 CNN 和《每日邮报》的选文列表中预测被掩盖的单词和短语，在这些选文中，同一单词或短语可能以多种不同的形式表达，所有这些都被认为是正确的。

识别文本内容（Recognizing Textual Entailment，RTE）：挑战自然语言模型，以确定一个文本摘录的真实性是否来自另一个文本摘录。

Word-in-Context（WiC）：为两个文本片段和一个多义词（即具有多重含义的单词）提供模型，并要求它们判定这个单词是否在两个句子中有相同的含义。

Winograd 模式挑战（Winograd Schema Challenge，WSC）：是一项任务，在这项任务中，模型给定小说书中的段落，必须回答关于歧义代词先行词的多项选择题。它被设计为图灵测试的改进。

SuperGLUE 也尝试在 Winogender 图式的模型中测量性别偏见，这些模型是仅由句子中某一代词的性别不同的句对。

但，研究人员指出，这种方法有其局限性，因为它只能提供积极的预测值：较差的偏见分数清楚地表明模型显示出性别偏见，而良好的分数并不意味着模型是无偏见的。而且，它并不包括一切形式的性别或社会偏见，因此它只是一种粗略的偏见衡量标准。

为了建立人类表现的基线，研究人员借鉴了 WiC、MultiRC、RTE 和 ReCoRD 的现有文献，并通过亚马逊的 Mechanical Turk 平台雇佣了众包注释员。

每个众包人员每小时的平均工资为 23.75 美元，他们完成了一个短期培训阶段，之后才会使用说明和常见问题来对多达 30 个选定测试集样本进行注释。

架构改进

尽管 DeBERTa 背后的微软研究人员在 1 月 6 日发表的一篇题为《微软 DeBERT 在 SuperGLUE 基准上超越人类》（Microsoft DeBERTa surpasses human performance on the SuperGLUE benchmark）的博文中提供了他们的工作细节，但是谷歌团队还没有提供关于其模型性能改进的细节。

DeBERTa 并非新鲜事，它是去年开源的，但研究人员表示，他们已经训出练一个包含 15 亿个参数（即模型用来进行预测的内部变量）的更大版本。它将以开源的方式发布，并集成到下一个版本的微软图灵自然语言表示模型中，支持诸如 Bing、Office、Dynamics 和 Azure 认知服务等产品。

DeBERTa 是通过掩蔽语言建模进行预训练的，这是一项填空任务，教会模型使用与被掩蔽标记相关的词来预测被掩蔽的词应该是什么。DeBERTa 利用上下文词的内容和位置信息来建立掩蔽语言模型，比如它能够识别出“a new store opened beside the new mall”句子中的“store”和“mall”扮演着不同的句法角色。

与其他一些模型不同的是，DeBERTa 在语言建模过程中将词的绝对位置考虑在内。此外，它还对模型中转换后的输入数据进行参数计算，并根据词的相对位置衡量词之间依赖关系的强弱。举例来说，DeBERTa 会理解“deep”和“learning”这两个词相邻出现时，依赖关系要比单独出现在不同句子中更强。

DeBERTa 还受益于对抗训练，这种技术利用对训练数据进行小幅度改变而获得的对抗样本。在训练过程中，这些对抗样本被输入到模型中，提高了模型的泛化能力。

微软研究人员希望下一步探索如何让 DeBERTa 能够泛化到新的子任务或基本的解决问题的能力，这个概念被称为“合成泛化”（compositional generalization）。未来的一条路可能是更加明确地融合所谓的合成结构，这可能需要将人工智能与符号推理，换句话说，按照数学和逻辑规则操纵符号和表达式。

“DeBERTa 在 SuperGLUE 上超越人类的表现标志着向通用人工智能迈进的重要里程碑，”微软研究人员写道。“但与 DeBERTa 不同的是，人类非常善于利用从不同任务中学到的知识来解决一个新的任务，并不需要或很少需要特定任务的演示。”

新基准

根据 Bowman 的说法，SuperGLUE 的继任者尚未出现，至少在短期内是如此。但是人工智能研究界越来越多的共识是，未来的基准，特别是在语言领域，要起作用，就必须考虑到更广泛的伦理、技术和社会挑战。

例如，一些研究表明，流行的基准在评估现实中的人工智能性能方面效果不佳。一份最新报告显示，自然语言处理模型给出的 60%~70% 的答案都嵌入在基准训练集中，这表明模型通常只是在记忆答案。在对超过 3000 篇人工智能论文进行的元分析中，另一项研究发现，用来衡量人工智能和机器学习模型的指标往往不一致，追踪不规则，并且信息也不特别丰富。

一部分原因是因为诸如 OpenAI 的GPT-3、谷歌的 T5+Meena 和微软的 DeBERTa 这样的语言模型，通过将公共网络中的样本内化，学会了如何写出与人类相似的文本。它们使用诸如电子书、维基百科和 Reddit 这样的社会媒体平台来推断整句话甚至整段话。

结果是，语言模型经常会放大这些公共数据中编码的偏见；部分培训数据并非不常见，它们来自具有普遍性别、种族和宗教偏见的社区。 OpenAI 是一家人工智能研究公司，它指出，这可能导致把像“naughty”或“sucked”这样的词放在女性代词旁边，把“Islam”放在 terrorism 旁边。

今年 4 月，英特尔、麻省理工学院以及加拿大人工智能项目 CIFAR 的研究人员发表了一份研究报告，报告指出，一些最流行的模型存在着很强的刻板印象，包括谷歌的BERT和XLNet、OpenAI 的GPT-2和 Facebook 的RoBERTa。

据 Middlebury Institute of International Studies 称，恶意行为者可能会利用这种偏见，通过传播错误信息、虚假信息和彻头彻尾的谎言来煽动不和谐，从而“使个人处于极端的极右思想和行为之中，成为暴力的个人”。

大部分已有的语言基准不能捕捉到这一点。在 SuperGLUE 发表的两年中，它的发现激发了人们，或许未来的基准可以做到这一点。

作者介绍：

Kyle Wiggers，技术记者，现居美国纽约市，为 VentureBeat 撰写有关人工智能的文章。

原文链接：

https://venturebeat.com/2021/01/06/ai-models-from-microsoft-and-google-already-surpass-human-performance-on-the-superglue-language-benchmark/

创作场景

微软和谷歌的 AI 模型在 SuperGLUE 语言基准上超越了人类的表现

SuperGLUE

架构改进

新基准