写点什么

全新 NLP 标准 SuperGLUE 问世:语言模型集体掉“分”,BERT 勉强过线

  • 2019-08-16
  • 本文字数:3979 字

    阅读完需:约 13 分钟

全新NLP标准SuperGLUE问世:语言模型集体掉“分”,BERT勉强过线

NLP 领域再获突破,Facebook AI 利用半监督学习技术与 RoBERTa 新方法,在第四届机器翻译大会上拔得头筹。随着 NLU 系统发展的不断加速,GLUE 榜单开始被各大“玩家”不断“刷分”,为了提高 NLP 技术“区分度”,Facebook AI 与纽约大学、DeepMind 以及华盛顿大学联合打造出SuperGLUE,为 NLP 研究设置了一项更高的标准。


自然语言理解(NLU)和语言翻译,可谓一系列重要应用的关键所在。在它们的帮助下,我们有望大规模识别并删除恶意内容,并将来自世界各地且使用不同语言的人们联系起来。不过,虽然近年来基于深度学习的方法加速了语言处理能力的提升,但在涉及那些难以获取大量标记训练数据的任务时,现有系统的功能仍然相当有限。


最近,Facebook AI 在 NLP 领域取得了令人印象深刻的突破。利用半监督与自监督学习技术,他们利用未标记数据实现了超越纯监督系统的性能表现。我们在第四届机器翻译大会(WMT19)比赛的多个语种项目中获得第一名,而这一切都要归功于这种全新的半监督训练方法。此外,我们还引入了一种新的自监督预训练方法,即 RoBERTa,其能够在多种语言理解任务中带来优于一切现有 NLU 系统的表现。在某些情况下,该系统甚至带来了优于人类基准的表现——包括英-德翻译以及另外五项 NLU 基准测试。总体来讲,NLU 系统的发展速度极为惊人,并开始在不少现有基准测试当中触及上限。为了继续推进最新技术的发展,我们与纽约大学(NYU)、DeepMind Technologies 以及华盛顿大学(UW)合作开发出一种全新基准测试、排名PyTorch工具包,其中包含我们希望在研究中进一步推动的各项挑战性任务。


这些新工具,将共同帮助我们创建出更为强大的内容理解系统,其有望翻译数百种语言并理解其中的模糊性元素、上下文参考以及常识推理等复杂问题——同时,减少大多数现有系统当中存在的、对大量标记训练数据的严重依赖。

翻译准确性迎来突破

对于神经机器翻译(NMT)模型而言,监督训练通常需要准备大量语句以作为翻译参考。然而,我们很难找到大量高质量的双语数据,这就迫使研究人员选择使用单语言数据。反向翻译(半监督学习技术)能够帮助我们在一定程度上克服这个问题。我们最近提交至 WMT 的内容,就建立在我们早期关于大规模抽样反向翻译的基础之上,而且当时我们就借此在去年的 WMT 大赛上拔得头筹。


今年,我们又引入了一种新方法:生成多种候选翻译内容,并选择其中在三种不同模型分数间最为平衡的项目作为最优答案,以进一步改进我们的翻译系统。这三种模型分别为正向、反向以及流畅。正向分数考察候选翻译结果能否准确捕捉原始句子的含义。反向分数取决于我们如何从候选翻译当中重建原始句子。而流畅分数则衡量候选翻译的流利程度,并通过查看大量单语数据通过自监督方式进行训练。在对这三项评分加以平衡之后,我们即可获得效果更好的翻译结果。


作为结果,与上一年相比,我们这一次将英语到德语翻译任务的表现提高了 4.5 BLEU(用于衡量所生成翻译内容,与专业参考内容之间重合程度的指标),这无疑是一项巨大的进步。根据人类专家的评估,我们的模型在四项翻译任务当中排名第一,分别为:英语到德语、德语到英语、英语到俄语、俄语到英语。另据 WMT 大赛评委的评估,我们在英语到德语的翻译表现上甚至已经优于人类翻译。



上图所示为这项技术的基本原理:首先,正向模型会翻译一个句子,例如从德语翻译为英语,并由此生成一组英语翻译或者说假设结果。接下来,反向模型将这些英语假设翻译成德语,并由系统评估由英语翻译出的德语与原本的德语句子之间的对比情况。最后,语言模型对英语翻译结果的流利程度做出判断。


我们还将训练扩大到规模更大的数据集当中,其中约包含由英语翻译为德语的约 100 亿字文本。与去年相比,我们在半监督训练中使用的文本总达到两倍以上,这进一步提高了翻译的准确率。

改进自监督的预训练方法

我们最近对自然语言处理(NLP)领域的最大突破之一做出了优化与改进,即由谷歌公司在 2018 年提出的 BERT,全称为基于双向 Transformer 的编码器表示。BERT 之所以具有革命性,是因为它证明了自监督训练技术有可能达到甚至超越传统标签密集型监督方法所能实现的性能。例如,我们可以利用 BERT 以及相关方法推动对话式 AI 的前沿研究、改进内容理解系统,并改善低资源与无监督场景下的翻译质量。


由于谷歌公司开源了 BERT,我们得以复制该项目并确定设计变更,从而进一步提高其有效性。我们引入了所谓健壮优化 BERT 预训练方案,简称 RoBERTa,也正是它为我们带来了这一波最新的理想结果。


RoBERTa 修改了 BERT 中的一些关键超参数,包括删除 BERT 的下一句预训练目标,并使用数量更多的小批量训练配合更高的学习率。与 BERT 相比,我们的整体数据量增长了十倍以上。这种方法也成功在当前广泛使用的 NLP 基准、通用语言理解评估(GLUE)以及通过考查的重新理解(RACE)方面取得了前所未有的好成绩。



以上图表展示了 RoBERTa 在各类任务中的实际结果,我们在其中预先传输了更长也更多的数据。可以看到,其在每一行当中都获得了比上一行更好的结果。


凭借着高达 88.5 的平均得分,RoBERTa 在 GLUE 排行榜上名列前茅,甚至足以匹敌平均得分为 88.4 的前任领先者 XLNet-Large。此外,RoBERTa 还在另几种语言理解基准中提升了最新技术水平,具体包括 MNLI、QNLI、RTE、STS-B 以及 RACE 任务等。


这一成就,源自我们在发掘不依赖数据标签的自监督系统性能与潜力方面投入的巨大努力。

NLP 研究的下一个前沿

作为衡量研究进展的行业性标准,GLUE 旨在涵盖大量 NLP 任务,因此在其中获取良好成绩的唯一方法就是构建起真正通用的工具,用以解决大部分新的语言理解问题。


在发布后的一年之内,一部分 NLP 模型(包括 RoBERTa)已经在 GLUE 基准测试当中超越了人类的表现。目前的模型已经提出一种令人惊讶的高效方法,能够将大型文本数据集中的语言模型预训练同简单的多任务、迁移学习技术结合起来。


这种快速进步,正是大规模 AI 社区共同合作的结果。通过一系列 NLP 竞赛、基准测试以及代码发布,如今我们终于能够不断加快模型复制、改进以及先进结果发布等工作的执行速度。随着 GPT 与 BERT 的推出,GLUE 的模型性能开始急剧上升,且最近开始与人类翻译表现发生交叉,如下图所示:



虽然目前的模型能够在特定 GLUE 任务当中超越人类表现,但其仍无法解决某些人类能够完美搞定的任务。为了给 NLP 研究设置一项更高的标准,Facebook AI 与纽约大学、DeepMind 以及华盛顿大学合作打造出 SuperGLUE。这是一项更为强大的基准,拥有全面的人类基准素材。我们也正在全面发布 SuperGLUE,希望帮助更多语言理解研究人员不断推进最新技术发展。


我们在原始与最新基准的创建当中,一直与多家合作伙伴保持协作,其中纽约大学长期引领着相关努力。SuperGLUE 遵循 GLUE 的开发思路,能够提供可总结各项 NLP 任务进度的个位数指标。除了新的基准测试之外,我们还发布了用于自展研究的排行榜与 PyTorch 工具包。


SuperGLUE 当中包含一系列相当困难的 NLP 任务,希望以这些侧重于机器学习领域内诸多核心创新方向(包样本效率、迁移、多任务以及自监督学习等)的任务为基础,帮助研究人员更好地测试自己的创造性新方法。为了挑战研究人员,我们选择了多种任务类型,包含大量最先进方法尚未解决、但人类却能轻松搞定的细微问题。为了检查这些任务,我们还为其收集了基于 BERT 以及人类翻译的基准测试数据。


这套新的基准包含八个不同且各具挑战的任务,包括选择合理的替代方案(COPA)——这是一项因果推理任务,系统会得到一个前提性句子,并需要从两个可能的选项当中选出与之相符的原因或结果。值得注意的是,人类在 COPA 当中拥有 100%的准确率表现,而 BERT 的准确率则只有 74%。这意味着其中还存在巨大的提升空间。


我们还在其中添加了不少独特的前沿组件,作为模型中测量偏见状况的诊断工具。具体来讲,我们引入了 Winogender,用于测试自动共参考解析系统当中是否存在性别偏见。SuperGLUE 还囊括一项名为 BooIQ 的问答任务,其中每个例子都包含一个简短的段落,以及与其内容相关的是或否判断问题;我们可以将其作为自然问题(Natural Questions)基准测试的理想代理。



上图所示为 SuperGLUE 中的五项示例任务。粗体文本代表各任务的一部分示例格式,斜体文本为模型输入的部分,带下划线的文本是输入中经过特殊标记的部分,而等宽字体则代表预期的模型输出结果。


类似于 GLUE,新的基准测试还包含面向语言理解任务建立而成的公开排行榜,其能够直接使用现有数据,并附有个位数性能指标与分析工具包。


我们最近针对新的基准对 RoBERTa 进行了测试,并发现其性能优于全部现有 NLU 系统,甚至在多语句阅读理解(MultiRC)任务中超越了人类表现。尽管如此,RoBERTa 在多项 SuperGLUE 任务中仍与人类基准存在巨大差距,这说明即使是当今最先进的 NLU 系统,也仍然具有不少局限。




为了进一步挑战 AI 系统的极限,我们还引入了第一套长篇幅问题回答数据集以及配套基准测试,这要求机器提升既长又复杂的答案——现有算法以往从未经历过这样的挑战。目前的问答系统专注于解决比较琐碎的问题,例如水母是否有大脑等。此次公布的新挑战,要求机器对开放式的问题做出深入解答以及详尽阐述,例如“水母是如何在没有大脑的情况下活动的?”现有算法在这方面的表现远远不及人类,而此次新挑战的出现将促使 AI 整合来自不同来源的信息,从而为开放式问题提供复杂的回应。


本文中提到的所有工作,都只是更为宏大的远景规划中的一部分,代表着迅速推进的语言处理技术的最新成果。通过发布新的进度衡量标准,引入半监督与自监督学习新方法,同时利用更大规模的数据进行训练,我们希望有效激发下一代创新方案的产生。相信通过这种相互挑战的持续发展方式,NLP 研究社区终将构建起更为强大的语言处理系统。


英文原文:New advances in natural language processing to better connect people


2019-08-16 14:3113803

评论

发布
暂无评论
发现更多内容

产品/项目经理必备:2024年最佳项目管理软件推荐

爱吃小舅的鱼

项目管理 项目管理软件

企业数字化转型中的低代码开发平台应用:释放创新潜能

EquatorCoco

低代码 数字化

腾讯云流计算 Oceanus:新版弹性方案,助力实时业务降本超30%

腾讯云大数据

流计算 Oceanus

非营利组织的数据治理之路

郑州埃文科技

数据治理

多模态人工智能是什么?

心大陆多智能体

智能体 AI大模型 多模态 心理健康 数字心理

解码技术债:AI代码助手与智能体的革新之道

快乐非自愿限量之名

人工智能 AI

Sync Folders Pro 4.7.5中文激活版 文件夹数据同步工具

iMac小白

针对企业级应用复杂性的低代码开发平台架构

快乐非自愿限量之名

低代码 开发架构

OmniOutliner 5 Pro for Mac(信息大纲记录工具)v5.13正式版

iMac小白

淘宝/天猫商品详情API接口与电商数据仓库的实时同步实践

技术冰糖葫芦

API Explorer API 文档 API 协议 pinduoduo API

轻松应用RapidMiner 内置案例模板实现数据挖掘详解(上篇)

Altair RapidMiner

人工智能 AI 数据分析 可视化 altair

Iris for Mac v1.7.2激活版 屏幕录像软件

iMac小白

My PaintBrush Pro专业版for Mac(mac绘图软件)v2.4.5激活版

iMac小白

iBarcoder for mac v3.15.5中文激活版 条形码生成工具

iMac小白

企业协同办公+应用开发平台:推动数字化转型的新引擎

不在线第一只蜗牛

低代码 数字化 企业团队协同

倒计时 2 周!CommunityOverCode Asia 2024 IoT & Community 专题部分

Greptime 格睿科技

Apache 数据库 IoT 社区 apache 社区

华为云发起,openGemini正式成为CNCF官方项目!

华为云开源

云原生 时序数据库 cncf openGemini 华为云开源

英特尔代工合作伙伴为EMIB先进封装技术提供参考流程

E科讯

djay Pro AI 5.2.0激活版 DJ音乐混合器软件

iMac小白

PhotosBlender for Mac(图片合成工具)v2.0.2激活版

iMac小白

重磅发布 | 中国信通院首个“低代码&无代码产业双象限”正式发布!共计34家企业上榜!

信通院IOMM数字化转型团队

低代码 无代码 低代码平台 无代码平台 企业数字化转型发展双象限

AI视频创作一条龙!达摩院“寻光”平台炸场WAIC,突破可控编辑难题

Openlab_cosmoplat

人工智能 AI 视频

你真的了解Java内存模型JMM吗?

不在线第一只蜗牛

Java JMM

淘宝详情的 API 探秘:获取与运用全攻略

Noah

rust:工具常用的命令

高端章鱼哥

开发PGC + UGC模式的体育赛事直播平台,推动行业创新与进步

软件开发-梦幻运营部

Xliff Editor for mac 2.11激活版 Xliff编辑器软件

iMac小白

销售“混圈子”的4个大坑以及避坑的方法

客户在哪儿AI

ToB营销 圈子营销 ToB获客 ToB增长

gamma生成ppt中文版来袭,让你的PPT分分钟颜值在线!

彭宏豪95

人工智能 PPT AIGC AI生成PPT Gamma

VMware ESXi 8.0U3 macOS Unlocker & OEM BIOS Marvell AQC 网卡驱动定制版

sysin

macos esxi OEM BIOS aqc

全新NLP标准SuperGLUE问世:语言模型集体掉“分”,BERT勉强过线_AICon_Facebook 博客_InfoQ精选文章