写点什么

微软和谷歌的 AI 模型在 SuperGLUE 语言基准上超越了人类的表现

  • 2021-01-14
  • 本文字数:3340 字

    阅读完需:约 11 分钟

微软和谷歌的 AI 模型在 SuperGLUE 语言基准上超越了人类的表现

隶属于 Facebook、纽约大学(NYU)、华盛顿大学和 DeepMind 的研究人员在 2019 年底推出了SuperGLUE,这是一种新的人工智能基准,用于总结各种语言任务的研究进展。基于去年发布的 GLUE 基准,SuperGLUE 包含了一系列更难的语言理解挑战、改进的资源以及公开的排行榜


在 SuperGLUE 推出时,在排行榜上,表现最好的模型和人类的表现有近 20 分的差距。但截至 1 月初,有两个模型,一个是来自微软的 DeBERTa,另一个是来自谷歌的 T5+Meena,它们已经超越了人类的基准线,成为第一批超越人类的模型。


纽约大学数据科学中心助理教授 Sam Bowman 表示,这一成就反映了机器学习的创新,包括自监督学习,即模型从未标记的数据集中学习,并制定了将洞察力用于目标任务的方法。


“这些数据集反映了一些最难的监督语言理解任务数据集,这些数据集在两年前是免费提供的。没有理由相信 SuperGLUE 将能够检测到自然语言处理的进一步进展,至少会超过剩下的一小部分”,Sam Bowman 说。


但是 SuperGLUE 并非人类语言能力的完美测试,也并非完整测试。DeBERTa 背后的微软团队在一篇博文中也指出,他们的模型“绝非”达到自然语言理解的人类级智能。他们表示,这需要研究突破,以及衡量它们及其效果的新基准。


SuperGLUE


正如研究人员在介绍 SuperGLUE 的论文《SuperGLUE:通用语言理解系统更严格的基准》(SuperGLUE: A Stickier Benchmark forGeneral-Purpose Language Understanding Systems)所写的那样,他们的基准旨在成为一个简单的而又有难度的衡量标准,用以衡量英语通用语言理解技术的进展。它包括 8 个语言理解任务,它们来自于已有的数据,并配有性能度量和分析工具包。


这些任务是:


  • 布尔问题(Boolean Questions,BoolQ):要求模型回答一个关于维基百科文章中包含答案的短文的问题。这是一些谷歌用户通过谷歌搜索提交的问题。


  • CommitmentBankCB):要求模型识别 文本中包含的假设,包括《华尔街日报》的信息来源,并确定该假设是否成立。


  • 合理选择(Choice of plausible alternatives,COPA): 提供了一个关于博客主题的前提语句,以及一本与摄影相关的百科全书,模型必须从中确定两种可能选择的因果关系。


  • 多句阅读理解(Multi-Sentence Reading Comprehension,MultiRC):这是一项问答式的任务,其中每个样本都包含一段上下文段落、一个关于该段落的问题,以及一系列可能的答案。一种模型必须预测哪些答案是真的,哪些答案是假的。


  • 基于常识推理数据集的阅读理解(Reading Comprehension with Commonsense Reasoning Dataset,ReCoRD):模型根据 CNN 和《每日邮报》的选文列表中预测被掩盖的单词和短语,在这些选文中,同一单词或短语可能以多种不同的形式表达,所有这些都被认为是正确的。


  • 识别文本内容(Recognizing Textual Entailment,RTE):挑战自然语言模型,以确定一个文本摘录的真实性是否来自另一个文本摘录。


  • Word-in-ContextWiC):为两个文本片段和一个多义词(即具有多重含义的单词)提供模型,并要求它们判定这个单词是否在两个句子中有相同的含义。


  • Winograd 模式挑战(Winograd Schema Challenge,WSC):是一项任务,在这项任务中,模型给定小说书中的段落,必须回答关于歧义代词先行词的多项选择题。它被设计为图灵测试的改进。


SuperGLUE 也尝试在 Winogender 图式的模型中测量性别偏见,这些模型是仅由句子中某一代词的性别不同的句对。


但,研究人员指出,这种方法有其局限性,因为它只能提供积极的预测值:较差的偏见分数清楚地表明模型显示出性别偏见,而良好的分数并不意味着模型是无偏见的。而且,它并不包括一切形式的性别或社会偏见,因此它只是一种粗略的偏见衡量标准。


为了建立人类表现的基线,研究人员借鉴了 WiC、MultiRC、RTE 和 ReCoRD 的现有文献,并通过亚马逊的 Mechanical Turk 平台雇佣了众包注释员。


每个众包人员每小时的平均工资为 23.75 美元,他们完成了一个短期培训阶段,之后才会使用说明和常见问题来对多达 30 个选定测试集样本进行注释。

架构改进


尽管 DeBERTa 背后的微软研究人员在 1 月 6 日发表的一篇题为《微软 DeBERT 在 SuperGLUE 基准上超越人类》(Microsoft DeBERTa surpasses human performance on the SuperGLUE benchmark)的博文中提供了他们的工作细节,但是谷歌团队还没有提供关于其模型性能改进的细节。


DeBERTa 并非新鲜事,它是去年开源的,但研究人员表示,他们已经训出练一个包含 15 亿个参数(即模型用来进行预测的内部变量)的更大版本。它将以开源的方式发布,并集成到下一个版本的微软图灵自然语言表示模型中,支持诸如 Bing、Office、Dynamics 和 Azure 认知服务等产品。


DeBERTa 是通过掩蔽语言建模进行预训练的,这是一项填空任务,教会模型使用与被掩蔽标记相关的词来预测被掩蔽的词应该是什么。DeBERTa 利用上下文词的内容和位置信息来建立掩蔽语言模型,比如它能够识别出“a new store opened beside the new mall”句子中的“store”和“mall”扮演着不同的句法角色。


与其他一些模型不同的是,DeBERTa 在语言建模过程中将词的绝对位置考虑在内。此外,它还对模型中转换后的输入数据进行参数计算,并根据词的相对位置衡量词之间依赖关系的强弱。举例来说,DeBERTa 会理解“deep”和“learning”这两个词相邻出现时,依赖关系要比单独出现在不同句子中更强。


DeBERTa 还受益于对抗训练,这种技术利用对训练数据进行小幅度改变而获得的对抗样本。在训练过程中,这些对抗样本被输入到模型中,提高了模型的泛化能力。


微软研究人员希望下一步探索如何让 DeBERTa 能够泛化到新的子任务或基本的解决问题的能力,这个概念被称为“合成泛化”(compositional generalization)。未来的一条路可能是更加明确地融合所谓的合成结构,这可能需要将人工智能与符号推理,换句话说,按照数学和逻辑规则操纵符号和表达式。


“DeBERTa 在 SuperGLUE 上超越人类的表现标志着向通用人工智能迈进的重要里程碑,”微软研究人员写道。“但与 DeBERTa 不同的是,人类非常善于利用从不同任务中学到的知识来解决一个新的任务,并不需要或很少需要特定任务的演示。”


新基准


根据 Bowman 的说法,SuperGLUE 的继任者尚未出现,至少在短期内是如此。但是人工智能研究界越来越多的共识是,未来的基准,特别是在语言领域,要起作用,就必须考虑到更广泛的伦理、技术和社会挑战。


例如,一些研究表明,流行的基准在评估现实中的人工智能性能方面效果不佳。一份最新报告显示,自然语言处理模型给出的 60%~70% 的答案都嵌入在基准训练集中,这表明模型通常只是在记忆答案。在对超过 3000 篇人工智能论文进行的元分析中,另一项研究发现,用来衡量人工智能和机器学习模型的指标往往不一致,追踪不规则,并且信息也不特别丰富。


一部分原因是因为诸如 OpenAI 的GPT-3、谷歌的 T5+Meena 和微软的 DeBERTa 这样的语言模型,通过将公共网络中的样本内化,学会了如何写出与人类相似的文本。它们使用诸如电子书、维基百科和 Reddit 这样的社会媒体平台来推断整句话甚至整段话。


结果是,语言模型经常会放大这些公共数据中编码的偏见;部分培训数据并非不常见,它们来自具有普遍性别、种族和宗教偏见的社区。 OpenAI 是一家人工智能研究公司,它指出,这可能导致把像“naughty”或“sucked”这样的词放在女性代词旁边,把“Islam”放在 terrorism 旁边。


今年 4 月,英特尔、麻省理工学院以及加拿大人工智能项目 CIFAR 的研究人员发表了一份研究报告,报告指出,一些最流行的模型存在着很强的刻板印象,包括谷歌的BERTXLNet、OpenAI 的GPT-2和 Facebook 的RoBERTa


据 Middlebury Institute of International Studies 称,恶意行为者可能会利用这种偏见,通过传播错误信息、虚假信息和彻头彻尾的谎言来煽动不和谐,从而“使个人处于极端的极右思想和行为之中,成为暴力的个人”。


大部分已有的语言基准不能捕捉到这一点。在 SuperGLUE 发表的两年中,它的发现激发了人们,或许未来的基准可以做到这一点。


作者介绍:


Kyle Wiggers,技术记者,现居美国纽约市,为 VentureBeat 撰写有关人工智能的文章。


原文链接:


https://venturebeat.com/2021/01/06/ai-models-from-microsoft-and-google-already-surpass-human-performance-on-the-superglue-language-benchmark/

2021-01-14 14:292091
用户头像
刘燕 InfoQ高级技术编辑

发布了 1112 篇内容, 共 548.2 次阅读, 收获喜欢 1978 次。

关注

评论

发布
暂无评论
发现更多内容

对冲基金的子基金模式vs集中管理

9527

LINUX SHELL脚本攻略

田维常

数仓缓慢变化维深层讲解

大数据老哥

大数据 数据仓库 数仓

大作业1

蓝黑

区块链商城系统开发技术详解

区块链数字货币交易所开发的简介

千里公路建设尽收眼底,3D可视化监测管养运,领导都惊呆了

一只数据鲸鱼

物联网 数据可视化 3D可视化 公路建设 智慧交通

mysql binlog轻量同步工具binlog portal

dothetrick

Java MySQL springboot Binlog spring Boot Starter

Flink SQL 实战:双流 join 场景应用

Apache Flink

flink 流计算

智慧公安防控管理平台搭建,重点人员管控系统解决方案

t13823115967

智慧公安

7 天开发后台系统技术小结

老魚

程序员 全栈 建站

国外低代码平台趟过那些坑,对国内低代码企业有哪些启示?

DT极客

Python的GIL

yunson

Python GIL

Ubuntu 使用 Iptables 做网络转发

wong

iptables Ubuntu20.04

《数据挖掘:实用的机器学习工具和技术,第4版》PDF版免费下载

计算机与AI

数据挖掘 机器学习 数据科学

甲方日常 79

句子

工作 随笔杂谈 日常

币币交易所系统开发详情说明

区块链钱包开发的核心优势

程序员修炼之路:你该知道的 7 个必经阶段

阿里巴巴云原生

阿里云 程序员 云原生 自我思考 成长笔记

漫画 | 带你领略前端发展史的江湖恩怨情仇

苏南

程序员 大前端 漫画 时代发展

区块链挖矿系统开发功能方案

区块链钱包开发的功能与特点

我参与阿里巴巴 ASoC-Seata 的一些感悟

阿里巴巴云原生

阿里云 开发者 云原生 感悟 seata

智慧社区管理平台建设,智慧平安小区整体解决方案

t13823115967

智慧社区安防系统平台开发

有没有听说过通达快递?

escray

极客时间 极客大学 课程作业 大作业 架构师训练营第 1 期

RocketMQ消息模型

废材姑娘

Java RocketMQ

区块链app开发要多少钱?如何根据项目需求了解价格?

数字货币交易所开发的功能与特点

2020年11期券商App行情刷新及交易体验评测报告

博睿数据

APM 数据 AIOPS 证券

这道面试题,出错率90%

田维常

面试

纵观 ActiveX 平台的兴衰史,看开发控件的技术演变

葡萄城技术团队

SpreadJS activex

微软和谷歌的 AI 模型在 SuperGLUE 语言基准上超越了人类的表现_AI&大模型_Kyle Wiggers_InfoQ精选文章