写点什么

谷歌提出 XTREME:评估跨语言的大规模多语言多任务基准

  • 2020-05-15
  • 本文字数:3377 字

    阅读完需:约 11 分钟

谷歌提出XTREME:评估跨语言的大规模多语言多任务基准

据估计,如今地球上有 6000 多种语言,我们穷其一生也不可能通晓那么多语言。那么,如何理解罕见语言呢?有不少科学家正在研究如何利用人工智能使用这些语言工作,XTREME 便是其中之一。


自然语言处理面临的主要挑战是构建这样一套系统:不仅能用英语,而且也能用世界上所有约 6900 多种语言工作。虽然世界上大多数语言都没有足够的数据来单独训练健壮的模型,但幸运的是,许多语言确实共享了相当多底层结构。


在词汇层面,语言中经常会有同源词,比如英语中的“desk”和德语的“tisch”,都是来自于拉丁文的“discus”。同样,许多语言也以相似的方式标记语义角色,例如在汉语和土耳其语中,使用介词来标记时空关系。


在自然语言处理中,为了克服数据稀疏性问题,有许多方法利用多语言的共享结构进行训练。从历史上看,这些方法大多集中于用多种语言执行特定任务。过去几年,在深度学习进步的推动下,试图学习通用多语言表示(如 mBERT、XLM、XLM-R)方法的数量有所增加,这些方法旨在获取跨语言共享知识,这些知识对许多任务都是有用的。然而,在实践中,对这些方法的评估大多集中在一小部分任务上,并且针对相似的语言。


为了鼓励对多语言学习进行更多研究,我们发表了论文《XTREME:用于评估跨语言泛化的大规模多语言多任务基准》(XTREME: A Massively Multilingual Multi-task Benchmark for Evaluating Cross-lingual Generalization)。XTREME 涵盖了 40 种不同类型的语言(跨 12 个语系),包括 9 个任务,这些任务都需要对不同层次的语法或语义进行推理。选择 XTREME 中的语言是为了最大限度地提高语言多样性、现有任务的覆盖率和训练数据的可用性。


在这些语言中,还有许多尚未充分研究的语言,如 达罗毗荼语系(Dravidian languages)泰米尔语(Tamil)(印度南部、斯里兰卡和新加坡语言)、泰卢固语(Telugu)和马拉雅拉姆语(Malayalam)(印度南部语言),以及 尼日尔 - 刚果语系(Niger–Congo languages)斯瓦希里语(Swahili)和约鲁巴语(Yoruba)(非洲语言)。我们提供了代码和数据,包括运行各种基准的示例,可在 GitHub 上获得。


地址:https://github.com/google-research/xtreme

XTREME 任务和语言

XTREME 中包含的任务涵盖了一系列范式,包括文档分类、结构化预测、文献检索和问答系统。因此,为了使模型在 XTREME 基准测试上取得成功,它们必须学习泛化到许多标准跨语言迁移设置的表示法。



XTREME 基准测试中支持的任务


每个任务都包含 40 种语言的一个子集。为了获得更多用于 XTREME 分析的低资源语言数据,我们将自然语言推理(XNLI)和问答系统(XQuAD)这两个具有代表性任务的测试集从英语自动翻译成其他语言。我们的实验表明,在这些任务中使用翻译后的测试集的模型表现出了与使用人类标记的测试集相当的性能。

零样本评估

要评估使用 XTREME 的性能,首先必须对模型进行多语言文本的预训练,并使用鼓励跨语言学习的目标。然后,对特定任务的英语数据进行微调,因为英语是最有可能提供标签数据的语言。然后,XTREME 评估这些模型的零样本跨语言传输性能,也就是说,在没有特定任务数据的其他语言上对这些模型进行评估。如下图所示,三个步骤的过程,包括从预训练到微调再到零样本迁移。



针对给定模型的跨语言迁移学习过程:对多语言文本进行预训练,然后对下游任务进行英语微调,最后使用 XTREME 进行零样本评估。


在实践中,这种零样本设置的好处之一是计算效率:预训练模型只需对每个任务的英语数据进行微调,然后就可以直接在其他语言上进行评估了。不过,对于有其他语言的标签数据的任务,我们也会在语言数据上进行微调对比。最后,我们通过获得所有 9 个 XTREME 任务的零样本得分来提供一个综合得分。

迁移学习的测试平台

我们使用几种较优的预训练多语言模型进行实验,包括 multilingual BERT,一种流行的 BERT 模型的多语言扩展:XLM 和 XLM-R,两个更大的多语言 BERT 版本,以及大规模多语言机器翻译模型 M4。这些模型有一个共同特点,就是它们已经对来自多语言的大量数据进行了预训练。在我们的实验中,我们选择了这些模型的变体,这些变体在大约 100 种语言上进行了预训练,其中包括基准测试的 40 种语言。


我们发现,尽管模型在大多数现有英语任务上实现了接近人类的表现,但在其他许多语言上的表现却明显低于人类。在所有模型的结构化预测和问答系统任务中,英语的表现与其他语言的表现差距最大,而在结构化预测和文档检索中,不同语言的结果分布最大。


为说明这一点,在下图中,我们按任务和语言的不同,显示了在所有语系中表现最好的模型 XLM-R 在零样本设置中的情况。不同任务之间的得分没有可比性,所以主要关注的应该是不同任务之间语言的相对排名。正如我们所看到的,许多高资源的语言,特别是印欧语系的语言,其排名一直较高。相比之下,该模型在其他语系,如汉藏语系、日本 - 琉球语系、朝鲜语系、尼日尔 - 刚果语系等语言上的表现较差。



XTREME 中所有任务和语言在零样本设置下的最佳表现模型 XLM-R 的性能。所报的分数是基于特定任务的度量标准的百分比,在不同任务中并不能直接比较。人类的表现(如果有的话)以红星表示,每种语系的具体示例均以其 ISO 639-1 编码表示。


总的来说,我们进行了一些有趣的观察。


  • 在零样本设置中,M4 和 mBERT 在大多数任务中都能与 XLM-R 竞争,而在特别有挑战性的问答系统任务中,后者的表现要优于它们。例如,在 XQuAD 上,XLM-R 的得分为 76.6,而 mBERT 和 M4 的得分分别为 64.5 和 64.8,在 MLQA 和 TyDi QA 上也有类似的得分差距。

  • 我们发现,使用机器翻译的基准,无论是翻译训练数据还是测试数据,都非常有竞争力。在 XNLI 任务中,mBERT 在零样本设置中得分为 65.4,而在使用翻译训练数据时得分为 74.0。

  • 我们观察到,少样本设置(即使用有限数量的语言内标记数据,如果可用的话)对于较简单的任务(如命名实体识别)特别有竞争力,但对于较复杂的问答系统任务来说,作用不大。这一点可从 mBERT 的表现中看出,在少样本设置中,mBERT 在命名实体识别任务上的表现提到了 42%,得分从 62.2 提高到 88.3,但对于问答系统任务(TyDi QA),只提高了 25%(得分从 59.7 提高到 74.5)。

  • 总的来说,在所有模式和环境中,英语与其他语言的表现仍存在较大差距,这说明跨语言迁移的研究仍然有很大的潜力。

跨语言迁移分析

与之前关于深度模型的泛化能力的观察类似,我们发现,与具有更多预训练数据的 XLM-R 相比,如果一种语言有更多的预训练数据可用,如 mBERT,那么结果就会有所改善。然而,我们发现,这种相关性对于结构化预测任务、词性(part-of-speech,POS)标记和命名实体识别(named entity recognition,NER)来说并不成立,这表明当前的深度预训练模型无法充分利用预训练数据迁移到这类语法任务中。我们还发现,模型在迁移到非拉丁文脚本时存在困难。这在词性标记任务上表现得尤为明显,mBERT 在西班牙语上的零样本正确率为 86.9,而在日语上的零样本正确率仅为 49.2。


对于自然语言推理任务 XNLI,我们发现,模型对一个英语测试实例和另一种语言的同一个测试实例进行预测,大约有 70% 的时间,模型会做出相同的预测。半监督的方法可能有助于提高实例预测与它们在不同语言翻译之间的一致性。我们还发现,这些模型很难预测英语训练数据中没有出现的词性标记序列,因为它们是在英语训练数据上进行微调的,这凸显了这些模型很难从用于预训练的大量未标记数据中学习其他语言的语法。对于命名实体识别,模型在语言距离很大的英语训练数据中没有出现的实体时最困难:印尼语(Indonesian)和斯瓦西里语(Swahili)的正确率分别为 58.0 和 66.6,而葡萄牙语(Portguese)和法语(French)的正确率分别为 82.3 和 80.1。

多语言迁移学习研究进展

尽管英语只占世界人口的 15% 左右,但它一直是自然语言处理领域最新进展的焦点。我们相信,在深度上下文表示的基础上,我们现在有了工具,可以在服务于世界上其他语言的系统上取得实质性的进展。我们希望,XTREME 能够推动多语言迁移学习的研究,就像 GLUE 和 SUperGLUE 这样的基准模型如何推动深度单语言模型的发展一样,包括 BERT、RoBERTa、XLNet、AIBERT 等。


作者简介:


Melvin Johnson,Google Research 高级软件工程师。


Sebastian Ruder,DeepMind 研究科学家。


原文链接:


https://ai.googleblog.com/2020/04/xtreme-massively-multilingual-multi.html


2020-05-15 14:501825

评论

发布
暂无评论
发现更多内容

解锁淘宝商品详情数据:淘宝天猫商品详情接口助你精准营销

tbapi

淘宝商品详情数据接口 淘宝API接口 天猫商品详情数据接口 淘宝商品数据接口

互联网时代的拍卖创新:现成拍卖直播源码搭建平台成为的新宠

软件开发-梦幻运营部

2024年的Rust与Go,看完你悟了吗?

伤感汤姆布利柏

QCN9024 QCN9074|Step by Step to load driver for DR9074-Triband onlinux 5.17.0

wallyslilly

对于企业来讲鸿蒙是机会还是累赘?

FN0

鸿蒙系统 鸿蒙 Ability

技术浅析:前端沙箱数据安全保护的机制

FN0

沙箱 小程序安全沙箱

《算法导论(原书第3版)》PDF

程序员李木子

构建知识图谱:从技术到实战的完整指南

快乐非自愿限量之名

人工智能 机器学习 深度学习 大数据

A/B实验在字节跳动推荐系统中的应用与实践

字节跳动数据平台

数据库 大数据 AB实验 企业号 1 月 PK 榜 数字化增长

基于低代码的管理系统模板库的设计与实现

不在线第一只蜗牛

数据库 低代码 数据管理 模板

语音数据集在智能驾驶中的价值与应用

来自四九城儿

金蝶云星辰与交通银行的完美结合:引领企业迈向高效支付管理新时代!

聚道云软件连接器

案例分享

TuGraph Analytics图数据集成:表到图的最后一公里

TuGraphAnalytics

数据仓库 数据集成 tugraph 图数据集成 图表转换

释放云算力 繁荣云生态,12 位技术专家解读智算时代下的云计算 | 附PPT下载

OpenAnolis小助手

centos 阿里云 操作系统 龙蜥社区 分论坛

如何让Go程序以后台进程或daemon方式运行

伤感汤姆布利柏

SDN 拓扑感知技术带你逃离灾难,轻松实现云灾备

品高云计算

左耳听风 - 工程师文化「读书打卡 day 21」

Java 工程师蔡姬

读书笔记 程序员 职业成长 工程师文化 个人发展

年货零食大单来袭,极兔速递如何精准破解旺季物流难题?

新消费日报

软件测试学习笔记丨自动化关键数据记录

测试人

软件测试 测试开发

EMQ 和 Intel 评选工业物联网领域最佳案例与应用

新消费日报

火山引擎ByteHouse:分析型数据库如何设计并发控制?

字节跳动数据平台

Hover的“Project Lever”为Kava带来实质收益

股市老人

赛博威大客户服务中心 | 助力企业突破运维困境,创造更多服务价值

赛博威科技

数字化 系统运维

WebAssembly核心编程[1]:wasm模块实例化的N种方式

EquatorCoco

编程 Web 开发语言

低代码开发在金融系统中的应用研究

EquatorCoco

低代码 金融 开发应用

NFT Dapp的兴起:关于创建NFT Dapp需要了解什么

区块链软件开发推广运营

dapp开发 区块链开发 链游开发 NFT开发 公链开发

One Click dApp

谢锐 | Frozen

Ethereum blockchain Solidity oneclickdapp web3camp

选300平米别墅还是90平米小平层?一文带你读懂PolarDB分布式版集分一体化

阿里云瑶池数据库

数据库 云计算 阿里云 polarDB

SD-WAN和专线混合组网:企业出海网络解决方案

Ogcloud

SD-WAN SD-WAN组网 SD-WAN服务商

软件测试学习笔记丨常用的设备交互命令

测试人

软件测试

面向工业设备远程运维的低代码开发平台设计

快乐非自愿限量之名

架构 低代码 数字化 工业

谷歌提出XTREME:评估跨语言的大规模多语言多任务基准_AI&大模型_Sebastian Ruder_InfoQ精选文章