HarmonyOS开发者限时福利来啦!最高10w+现金激励等你拿~ 了解详情
写点什么

比 BERT 提升近 10 个点!百度预训练模型 ERNIE 登顶 GLUE 榜单

  • 2019-12-11
  • 本文字数:1079 字

    阅读完需:约 4 分钟

比BERT提升近10个点!百度预训练模型ERNIE登顶GLUE榜单

北京时间 12 月 10 日,百度预训练模型界 ERNIE 在自然语言处理领域权威数据集 GLUE 中登上榜首,并以 9 个任务平均得分首次突破 90 大关刷新该榜单历史,其超越微软 MTDNN-SMART, 谷歌 T5、ALBERT 等一众国际顶级预训练模型的表现。



众所周知,通用语言理解评估基准 GLUE 是自然语言处理领域最权威的排行榜之一,由纽约大学、华盛顿大学、谷歌 DeepMind 等机构联合推出,以其涵盖大量不同类型的 NLP 任务,包括自然语言推断、语义相似度、问答匹配、情感分析等 9 大任务,成为衡量自然语言处理研究进展的行业标准。因此,吸引了谷歌、Facebook、微软等国际顶尖公司以及斯坦福大学、卡耐基·梅隆大学等顶尖大学参加。GLUE 排行榜的效果,在一定程度上成为了衡量各机构自然语言处理预训练技术水平最重要的指标之一。此次能够超越国际顶尖公司及高校荣登榜首,背后是百度 NLP 技术的长足积累。


2018 年底以来,以 BERT 为代表的预训练模型大幅提升了自然语言处理任务的基准效果,取得了显著技术突破,基于大规模数据的预训练技术在自然语言处理领域变得至关重要。众 AI 公司纷纷发力预训练领域,相继发布了 XLNet、RoBERTa、ALBERT、T5 等预训练模型。百度也先后发布了 ERNIE 1.0、ERNIE 2.0,在 16 个中英数据集上取得了当时的 SOTA。


从 GLUE 排行榜上来看,BERT 使用预训练加微调的方式,相对过往的基线成绩大幅提升各任务的效果,首次突破了 80 大关。XLNet、RoBERTa、T5、MT-DNN-SMART 等模型则分布在 88-89 分范围,人类水平则是 87.1。


百度 ERNIE 此次登顶,成为首个突破 90 大关的模型,并在 CoLA、SST-2、QQP、WNLI 等数据集上达到 SOTA。相对 BERT 的 80.5 的成绩,提升近 10 个点,取得了显著的效果突破。



百度 ERNIE 2.0 原理示意图


ERNIE 2.0 持续学习的语义理解框架, 支持增量引入不同角度的自定义预训练任务,通过多任务学习对模型进行训练更新,每当引入新任务时,该框架可在学习该任务的同时,不遗忘之前学到过的信息。


此次登顶的模型主要基于 ERNIE 2.0 持续学习语义理解框架下的系列优化。引入更多新预训练任务, 例如引入基于互信息的动态边界掩码算法。对预训练数据和模型结构也做了精细化调整。


同时,百度 ERNIE 2.0 的论文(https://arxiv.org/abs/1907.12412)已被国际人工智能顶级学术会议 AAAI-2020 收录,AAAI-2020 将于 2020 年 2 月 7 日-12 日在美国纽约举行, 届时百度的技术团队将会进一步展示近期的技术成果。


据悉,百度 ERNIE 预训练技术已广泛地应用于公司内外多个产品和技术场景,其在百度搜索、小度音箱、信息流推荐等一系列产品应用中提升技术效果和用户体验的同时也在逐步赋能各行各业。


2019-12-11 15:242211
用户头像
刘燕 InfoQ高级技术编辑

发布了 1112 篇内容, 共 532.5 次阅读, 收获喜欢 1976 次。

关注

评论

发布
暂无评论
发现更多内容

dubbo 2.7应用级服务发现踩坑小记

捉虫大师

dubbo 服务发现

5W1H聊开源之Who和How——谁、如何参与开源?

禅道项目管理

开源 开源文化

阿里最新秋招面经,腾讯/美团/字节1千道Java中高级面试题

Java 编程 程序员 架构 面试

存储大师班:NFS 的诞生与成长

青云技术社区

存储 分布式存储 NFS

CloudQuery 安全系列(一): Http 与 Https

BinTools图尔兹

数据库 网络安全 https 数据安全 数据库管理

数字人民币双层运营架构下缘何衍生出2.5层?看完才明白,原来这么重要!

CECBC

网络攻防学习笔记 Day55

穿过生命散发芬芳

网络攻防 6月日更

有没有字节工牌,Java并发安全的根本原因都得懂

慕枫技术笔记

Java 高并发

在北鲲云超算平台上做球体落入水中的流固耦合仿真模拟记录

北鲲云

奇亚矿机系统源码,Bzz节点分币系统搭建

41 位 Contributor 参与,1574 个 PR,不容错过的版本更新!

SphereEx

深度学习分类任务常用评估指标

华为云开发者联盟

机器学习 深度学习

多路三线RTD电阻温度采集电路设计方案

不脱发的程序猿

电路设计 硬件开发 RTD电阻 温度采集电路

iOS面试残篇-辟邪剑谱

程序员 面试 编程之路 移动开发 iOS 知识体系

Java 的函数式接口(必懂知识点!)

Java MySQL 程序员 面试

让AI发展避开“暗礁”,索信达控股推出自研区块链+联邦学习解决方案

索信达控股

区块链 金融科技 联邦学习 金融监管 风控

透过 3.0 Preview 看 Dubbo 的云原生变革

try catch

深入C语言中数据的存储

小写丶H

字节跳动三面拿offer:网络+IO+redis+JVM+GC+红黑树+数据结构

Java 编程 程序员 架构 面试

Vue Conf关于Vite的分享给我带来的启发

前端森林

vite esm Vue 3

解密开源技术的污点

WorkPlus

社群编码识别黑灰产攻击实践

百度Geek说

Windows 11 这项亮点功能源自英特尔Bridge技术支持

E科讯

我的新书《C++服务器开发精髓》终于出版啦

张小方

c++ 网络编程 Linux服务器开发 C++后端开发 网路通信

性能利器Takin来了!首个生产环境全链路压测平台正式开源

TakinTalks稳定性社区

开源 高可用 性能测试 压力测试

安卓工控主板显示接口有哪些呢?

双赞工控

安卓主板 工控主板 ARM开发主板

数仓备机DN重建:快速修复你的数仓DN单点故障

华为云开发者联盟

数据仓库 主机 华为云 备机 DN

未来法律科技发展现五大趋势,区块链、AI、大数据吸引资本目光

CECBC

技术解密 |阿里云多媒体 AI 团队拿下 CVPR2021 5 冠 1 亚成绩的技术分享

阿里云视频云

阿里云 AI 计算机视觉 经验分享 CVPR

CloudQuery 使用教程之《No.2数据查询(上)》

BinTools图尔兹

sql dba 数据库管理工具 国产数据库 开发运维

数字化时代,为什么解决信任问题是科技公司最重要的事情?

CECBC

比BERT提升近10个点!百度预训练模型ERNIE登顶GLUE榜单_AI&大模型_高高_InfoQ精选文章