写点什么

全新 NLP 标准 SuperGLUE 问世:语言模型集体掉“分”,BERT 勉强过线

  • 2019-08-16
  • 本文字数:3979 字

    阅读完需:约 13 分钟

全新NLP标准SuperGLUE问世:语言模型集体掉“分”,BERT勉强过线

NLP 领域再获突破,Facebook AI 利用半监督学习技术与 RoBERTa 新方法,在第四届机器翻译大会上拔得头筹。随着 NLU 系统发展的不断加速,GLUE 榜单开始被各大“玩家”不断“刷分”,为了提高 NLP 技术“区分度”,Facebook AI 与纽约大学、DeepMind 以及华盛顿大学联合打造出SuperGLUE,为 NLP 研究设置了一项更高的标准。


自然语言理解(NLU)和语言翻译,可谓一系列重要应用的关键所在。在它们的帮助下,我们有望大规模识别并删除恶意内容,并将来自世界各地且使用不同语言的人们联系起来。不过,虽然近年来基于深度学习的方法加速了语言处理能力的提升,但在涉及那些难以获取大量标记训练数据的任务时,现有系统的功能仍然相当有限。


最近,Facebook AI 在 NLP 领域取得了令人印象深刻的突破。利用半监督与自监督学习技术,他们利用未标记数据实现了超越纯监督系统的性能表现。我们在第四届机器翻译大会(WMT19)比赛的多个语种项目中获得第一名,而这一切都要归功于这种全新的半监督训练方法。此外,我们还引入了一种新的自监督预训练方法,即 RoBERTa,其能够在多种语言理解任务中带来优于一切现有 NLU 系统的表现。在某些情况下,该系统甚至带来了优于人类基准的表现——包括英-德翻译以及另外五项 NLU 基准测试。总体来讲,NLU 系统的发展速度极为惊人,并开始在不少现有基准测试当中触及上限。为了继续推进最新技术的发展,我们与纽约大学(NYU)、DeepMind Technologies 以及华盛顿大学(UW)合作开发出一种全新基准测试、排名PyTorch工具包,其中包含我们希望在研究中进一步推动的各项挑战性任务。


这些新工具,将共同帮助我们创建出更为强大的内容理解系统,其有望翻译数百种语言并理解其中的模糊性元素、上下文参考以及常识推理等复杂问题——同时,减少大多数现有系统当中存在的、对大量标记训练数据的严重依赖。

翻译准确性迎来突破

对于神经机器翻译(NMT)模型而言,监督训练通常需要准备大量语句以作为翻译参考。然而,我们很难找到大量高质量的双语数据,这就迫使研究人员选择使用单语言数据。反向翻译(半监督学习技术)能够帮助我们在一定程度上克服这个问题。我们最近提交至 WMT 的内容,就建立在我们早期关于大规模抽样反向翻译的基础之上,而且当时我们就借此在去年的 WMT 大赛上拔得头筹。


今年,我们又引入了一种新方法:生成多种候选翻译内容,并选择其中在三种不同模型分数间最为平衡的项目作为最优答案,以进一步改进我们的翻译系统。这三种模型分别为正向、反向以及流畅。正向分数考察候选翻译结果能否准确捕捉原始句子的含义。反向分数取决于我们如何从候选翻译当中重建原始句子。而流畅分数则衡量候选翻译的流利程度,并通过查看大量单语数据通过自监督方式进行训练。在对这三项评分加以平衡之后,我们即可获得效果更好的翻译结果。


作为结果,与上一年相比,我们这一次将英语到德语翻译任务的表现提高了 4.5 BLEU(用于衡量所生成翻译内容,与专业参考内容之间重合程度的指标),这无疑是一项巨大的进步。根据人类专家的评估,我们的模型在四项翻译任务当中排名第一,分别为:英语到德语、德语到英语、英语到俄语、俄语到英语。另据 WMT 大赛评委的评估,我们在英语到德语的翻译表现上甚至已经优于人类翻译。



上图所示为这项技术的基本原理:首先,正向模型会翻译一个句子,例如从德语翻译为英语,并由此生成一组英语翻译或者说假设结果。接下来,反向模型将这些英语假设翻译成德语,并由系统评估由英语翻译出的德语与原本的德语句子之间的对比情况。最后,语言模型对英语翻译结果的流利程度做出判断。


我们还将训练扩大到规模更大的数据集当中,其中约包含由英语翻译为德语的约 100 亿字文本。与去年相比,我们在半监督训练中使用的文本总达到两倍以上,这进一步提高了翻译的准确率。

改进自监督的预训练方法

我们最近对自然语言处理(NLP)领域的最大突破之一做出了优化与改进,即由谷歌公司在 2018 年提出的 BERT,全称为基于双向 Transformer 的编码器表示。BERT 之所以具有革命性,是因为它证明了自监督训练技术有可能达到甚至超越传统标签密集型监督方法所能实现的性能。例如,我们可以利用 BERT 以及相关方法推动对话式 AI 的前沿研究、改进内容理解系统,并改善低资源与无监督场景下的翻译质量。


由于谷歌公司开源了 BERT,我们得以复制该项目并确定设计变更,从而进一步提高其有效性。我们引入了所谓健壮优化 BERT 预训练方案,简称 RoBERTa,也正是它为我们带来了这一波最新的理想结果。


RoBERTa 修改了 BERT 中的一些关键超参数,包括删除 BERT 的下一句预训练目标,并使用数量更多的小批量训练配合更高的学习率。与 BERT 相比,我们的整体数据量增长了十倍以上。这种方法也成功在当前广泛使用的 NLP 基准、通用语言理解评估(GLUE)以及通过考查的重新理解(RACE)方面取得了前所未有的好成绩。



以上图表展示了 RoBERTa 在各类任务中的实际结果,我们在其中预先传输了更长也更多的数据。可以看到,其在每一行当中都获得了比上一行更好的结果。


凭借着高达 88.5 的平均得分,RoBERTa 在 GLUE 排行榜上名列前茅,甚至足以匹敌平均得分为 88.4 的前任领先者 XLNet-Large。此外,RoBERTa 还在另几种语言理解基准中提升了最新技术水平,具体包括 MNLI、QNLI、RTE、STS-B 以及 RACE 任务等。


这一成就,源自我们在发掘不依赖数据标签的自监督系统性能与潜力方面投入的巨大努力。

NLP 研究的下一个前沿

作为衡量研究进展的行业性标准,GLUE 旨在涵盖大量 NLP 任务,因此在其中获取良好成绩的唯一方法就是构建起真正通用的工具,用以解决大部分新的语言理解问题。


在发布后的一年之内,一部分 NLP 模型(包括 RoBERTa)已经在 GLUE 基准测试当中超越了人类的表现。目前的模型已经提出一种令人惊讶的高效方法,能够将大型文本数据集中的语言模型预训练同简单的多任务、迁移学习技术结合起来。


这种快速进步,正是大规模 AI 社区共同合作的结果。通过一系列 NLP 竞赛、基准测试以及代码发布,如今我们终于能够不断加快模型复制、改进以及先进结果发布等工作的执行速度。随着 GPT 与 BERT 的推出,GLUE 的模型性能开始急剧上升,且最近开始与人类翻译表现发生交叉,如下图所示:



虽然目前的模型能够在特定 GLUE 任务当中超越人类表现,但其仍无法解决某些人类能够完美搞定的任务。为了给 NLP 研究设置一项更高的标准,Facebook AI 与纽约大学、DeepMind 以及华盛顿大学合作打造出 SuperGLUE。这是一项更为强大的基准,拥有全面的人类基准素材。我们也正在全面发布 SuperGLUE,希望帮助更多语言理解研究人员不断推进最新技术发展。


我们在原始与最新基准的创建当中,一直与多家合作伙伴保持协作,其中纽约大学长期引领着相关努力。SuperGLUE 遵循 GLUE 的开发思路,能够提供可总结各项 NLP 任务进度的个位数指标。除了新的基准测试之外,我们还发布了用于自展研究的排行榜与 PyTorch 工具包。


SuperGLUE 当中包含一系列相当困难的 NLP 任务,希望以这些侧重于机器学习领域内诸多核心创新方向(包样本效率、迁移、多任务以及自监督学习等)的任务为基础,帮助研究人员更好地测试自己的创造性新方法。为了挑战研究人员,我们选择了多种任务类型,包含大量最先进方法尚未解决、但人类却能轻松搞定的细微问题。为了检查这些任务,我们还为其收集了基于 BERT 以及人类翻译的基准测试数据。


这套新的基准包含八个不同且各具挑战的任务,包括选择合理的替代方案(COPA)——这是一项因果推理任务,系统会得到一个前提性句子,并需要从两个可能的选项当中选出与之相符的原因或结果。值得注意的是,人类在 COPA 当中拥有 100%的准确率表现,而 BERT 的准确率则只有 74%。这意味着其中还存在巨大的提升空间。


我们还在其中添加了不少独特的前沿组件,作为模型中测量偏见状况的诊断工具。具体来讲,我们引入了 Winogender,用于测试自动共参考解析系统当中是否存在性别偏见。SuperGLUE 还囊括一项名为 BooIQ 的问答任务,其中每个例子都包含一个简短的段落,以及与其内容相关的是或否判断问题;我们可以将其作为自然问题(Natural Questions)基准测试的理想代理。



上图所示为 SuperGLUE 中的五项示例任务。粗体文本代表各任务的一部分示例格式,斜体文本为模型输入的部分,带下划线的文本是输入中经过特殊标记的部分,而等宽字体则代表预期的模型输出结果。


类似于 GLUE,新的基准测试还包含面向语言理解任务建立而成的公开排行榜,其能够直接使用现有数据,并附有个位数性能指标与分析工具包。


我们最近针对新的基准对 RoBERTa 进行了测试,并发现其性能优于全部现有 NLU 系统,甚至在多语句阅读理解(MultiRC)任务中超越了人类表现。尽管如此,RoBERTa 在多项 SuperGLUE 任务中仍与人类基准存在巨大差距,这说明即使是当今最先进的 NLU 系统,也仍然具有不少局限。




为了进一步挑战 AI 系统的极限,我们还引入了第一套长篇幅问题回答数据集以及配套基准测试,这要求机器提升既长又复杂的答案——现有算法以往从未经历过这样的挑战。目前的问答系统专注于解决比较琐碎的问题,例如水母是否有大脑等。此次公布的新挑战,要求机器对开放式的问题做出深入解答以及详尽阐述,例如“水母是如何在没有大脑的情况下活动的?”现有算法在这方面的表现远远不及人类,而此次新挑战的出现将促使 AI 整合来自不同来源的信息,从而为开放式问题提供复杂的回应。


本文中提到的所有工作,都只是更为宏大的远景规划中的一部分,代表着迅速推进的语言处理技术的最新成果。通过发布新的进度衡量标准,引入半监督与自监督学习新方法,同时利用更大规模的数据进行训练,我们希望有效激发下一代创新方案的产生。相信通过这种相互挑战的持续发展方式,NLP 研究社区终将构建起更为强大的语言处理系统。


英文原文:New advances in natural language processing to better connect people


2019-08-16 14:3113844

评论

发布
暂无评论
发现更多内容

JavaScript的垃圾回收机制

肥晨

js 垃圾回收机制 11月月更

3层结构+7大特点,带你认识华为云IoTEdge

华为云开发者联盟

云计算 物联网 华为云 企业号十月 PK 榜

Paddle模型性能分析工具Profiler:定位瓶颈点、优化程序、提升性能

汀丶人工智能

自然语言处理 nlp 性能分析 11月月更

京东云开发者|IoT运维 - 如何部署一套高可用K8S集群

京东科技开发者

运维 k8s IoT etcd K8s 多集群管理

计算机网络:组帧

timerring

计算机网络 11月月更

不借助 Fiori client,直接在手机浏览器里调用 SAP UI5 BarcodeScanner 实现条形码扫描的可能性?

汪子熙

JavaScript 前端开发 Fiori SAP UI5 11月月更

【C语言】break 关键字

謓泽

11月月更

快速创建软件安装包-ClickOnce

沙漠尽头的狼

从柯里化讲起,一网打尽 JavaScript 重要的高阶函数

掘金安东尼

前端 11月月更

写给关系数据库开发者的 TDengine 入门指南

TDengine

数据库 tdengine 时序数据库

uniapp简单入门

格斗家不爱在外太空沉思

vue.js uniapp 11月月更

RocksDB 7 终于解决了 Compaction 时性能下降问题

Kvrocks

redis RocksDB kvrocks

云数据库时代,DBA将走向何方?

华为云开发者联盟

数据库 后端 华为云 企业号十月 PK 榜

HummerRisk V0.5:新版云合规报告、资源风险联动、拓扑展示等内容

HummerCloud

云安全 云原生安全 11月月更

SOFARegistry | 大规模集群优化实践

SOFAStack

开源 SOFA SOFARegistry'

web--文件上传

我是一个茶壶

WEB安全 文件上传 11月月更

uniapp多端分享(app,小程序,公众号)

格斗家不爱在外太空沉思

vue.js uniapp 11月月更

HTTP和HTTPS是什么 二者区别是什么

肥晨

11月月更 http和https http工作原理

河北首家城商行传统核心业务国产化,TDSQL突破三“最”为秦皇岛银行保驾护航

腾讯云数据库

数据库 分布式 tdsql 客户案例 腾讯云数据库

知象光电完成过亿元C轮融资,加速发力全球市场

硬科技星球

软件测试面试真题 | 面试时被问到知识盲区,该怎么办呢?

测试人

软件测试 面试题 测试开发

微信小程序—制作一个简单的跑步小程序

格斗家不爱在外太空沉思

JavaScript 微信小程序 11月月更

DevData Talks | 让效能度量产生真正的价值,要避开多少“坑”?

思码逸研发效能

研发效能 研发管理工具 企业研发管理

ModelBox姿态匹配:抖抖手动动脚勤做深呼吸

华为云开发者联盟

人工智能 华为云 企业号十月 PK 榜

2022世界互联网大会 | VoneCredit为中小企业纾困解忧

旺链科技

区块链 产业区块链 世界互联网大会 企业号十月PK榜

dns-client占用cpu过高的问题解决方案

我是一个茶壶

win10 DNS 11月月更

GoFrame的gmap相比Go原生的map,天然支持排序和有序遍历!?

王中阳Go

Go golang 高效工作 学习方法 11月月更

前端面经

肥晨

前端面试题 11月月更 前端面筋 超全面试题

装了我这 10 个 IDEA 神级插件后,同事也开始情不自禁的嘚瑟了

沉默王二

IntelliJ IDEA

Serverless Developer Meetup 杭州站精彩回顾!【附赠PPT】

阿里巴巴云原生

阿里云 Serverless 云原生

为什么要用CSS精灵图

源字节1号

软件开发 前端开发 后端开发 小程序开发

全新NLP标准SuperGLUE问世:语言模型集体掉“分”,BERT勉强过线_AICon_Facebook 博客_InfoQ精选文章