写点什么

比 BERT 提升近 10 个点!百度预训练模型 ERNIE 登顶 GLUE 榜单

  • 2019-12-11
  • 本文字数:1079 字

    阅读完需:约 4 分钟

比BERT提升近10个点!百度预训练模型ERNIE登顶GLUE榜单

北京时间 12 月 10 日,百度预训练模型界 ERNIE 在自然语言处理领域权威数据集 GLUE 中登上榜首,并以 9 个任务平均得分首次突破 90 大关刷新该榜单历史,其超越微软 MTDNN-SMART, 谷歌 T5、ALBERT 等一众国际顶级预训练模型的表现。



众所周知,通用语言理解评估基准 GLUE 是自然语言处理领域最权威的排行榜之一,由纽约大学、华盛顿大学、谷歌 DeepMind 等机构联合推出,以其涵盖大量不同类型的 NLP 任务,包括自然语言推断、语义相似度、问答匹配、情感分析等 9 大任务,成为衡量自然语言处理研究进展的行业标准。因此,吸引了谷歌、Facebook、微软等国际顶尖公司以及斯坦福大学、卡耐基·梅隆大学等顶尖大学参加。GLUE 排行榜的效果,在一定程度上成为了衡量各机构自然语言处理预训练技术水平最重要的指标之一。此次能够超越国际顶尖公司及高校荣登榜首,背后是百度 NLP 技术的长足积累。


2018 年底以来,以 BERT 为代表的预训练模型大幅提升了自然语言处理任务的基准效果,取得了显著技术突破,基于大规模数据的预训练技术在自然语言处理领域变得至关重要。众 AI 公司纷纷发力预训练领域,相继发布了 XLNet、RoBERTa、ALBERT、T5 等预训练模型。百度也先后发布了 ERNIE 1.0、ERNIE 2.0,在 16 个中英数据集上取得了当时的 SOTA。


从 GLUE 排行榜上来看,BERT 使用预训练加微调的方式,相对过往的基线成绩大幅提升各任务的效果,首次突破了 80 大关。XLNet、RoBERTa、T5、MT-DNN-SMART 等模型则分布在 88-89 分范围,人类水平则是 87.1。


百度 ERNIE 此次登顶,成为首个突破 90 大关的模型,并在 CoLA、SST-2、QQP、WNLI 等数据集上达到 SOTA。相对 BERT 的 80.5 的成绩,提升近 10 个点,取得了显著的效果突破。



百度 ERNIE 2.0 原理示意图


ERNIE 2.0 持续学习的语义理解框架, 支持增量引入不同角度的自定义预训练任务,通过多任务学习对模型进行训练更新,每当引入新任务时,该框架可在学习该任务的同时,不遗忘之前学到过的信息。


此次登顶的模型主要基于 ERNIE 2.0 持续学习语义理解框架下的系列优化。引入更多新预训练任务, 例如引入基于互信息的动态边界掩码算法。对预训练数据和模型结构也做了精细化调整。


同时,百度 ERNIE 2.0 的论文(https://arxiv.org/abs/1907.12412)已被国际人工智能顶级学术会议 AAAI-2020 收录,AAAI-2020 将于 2020 年 2 月 7 日-12 日在美国纽约举行, 届时百度的技术团队将会进一步展示近期的技术成果。


据悉,百度 ERNIE 预训练技术已广泛地应用于公司内外多个产品和技术场景,其在百度搜索、小度音箱、信息流推荐等一系列产品应用中提升技术效果和用户体验的同时也在逐步赋能各行各业。


2019-12-11 15:242228
用户头像
刘燕 InfoQ高级技术编辑

发布了 1112 篇内容, 共 539.8 次阅读, 收获喜欢 1977 次。

关注

评论

发布
暂无评论
发现更多内容

如何从命令行启动 CST 软件?

思茂信息

IPP SWAP算力LP挖矿系统搭建开发技术

薇電13242772558

智能合约

人工智能基础软件助力交通运输智慧执法

九章云极DataCanvas

SQL 问题集合

Andy

AI女友同时和1000人谈恋爱,狂赚500万

引迈信息

人工智能 AI 低代码 JNPF

Java面试八股文的天花板,能解决互联网大厂90%的面试题

采菊东篱下

Java 编程 面试

软件测试 | Django客户端测试

测吧(北京)科技有限公司

测试

数据标注类相关文章:揭秘数据标注的奥秘

来自四九城儿

2023年5月中国数据库排行榜:OTO组合回归育新机,华为高斯蓄势待发展雄心

墨天轮

数据库 opengauss TiDB oceanbase 国产数据库

玩转 LLMs 之基础设施「利刃出鞘」

Zilliz

Milvus ChatGPT autogpt zillizcloud langchain

浅谈什么是多端能力服务统一

FinFish

前端技术 后端技术 小程序容器 多端能力服务统一 跨端技术

腾讯云2023年最新分享Redis深度笔记(毕业版)PDF,全程精点无废话

开心学Java

Java redis 腾讯云 源码

AREX Agent 源码解读之全链路跟踪和 Mock 数据读写

AREX 中文社区

Java 测试

API Mock 教程, 简单易懂。

Apifox

前端 开发工具 API Mock Mock 服务

使用 Easysearch,日志存储少一半

极限实验室

elasticsearch zstd easysearch

火热报名!2023开放原子全球开源峰会报名通道正式开启

开放原子开源基金会

AI数据采集标注类型:揭秘数据采集与标注的关键环节

来自四九城儿

软件测试 | 编写单元测试用例

测吧(北京)科技有限公司

测试

浪潮海岳低代码平台inBuilder开源社区版特性推荐系列-第二期

inBuilder低代码平台

开源 低代码

NoSQL 数据库架构

Andy

FCPX插件-手势点击滑动视频转场 Hand Gesture Transitions

真大的脸盆

Mac Mac 软件 fcpx插件 视频特效插件 转场效果插件

直播预告 | 博睿学院:智能告警与AIOps融合探索

博睿数据

根因分析 智能运维 智能告警 博睿数据 博睿学院

大数据如何助力营销(3)产品定位

MobTech袤博科技

软件测试 | unittest单元测试框架

测吧(北京)科技有限公司

测试

INFINI Labs 产品更新 | 重磅推出 Easysearch 一个分布式的近实时搜索与分析引擎

极限实验室

elasticsearch console Gateway agent easysearch

开源赋能 普惠未来|京东集团寄语2023开放原子全球开源峰会

开放原子开源基金会

什么是低代码开发?低代码开发可以解决哪些问题?

优秀

低代码开发 低代码开发平台

得物AI平台-KubeAI推理训练引擎设计和实践

得物技术

SQL 优化及场景实例

Andy

RDB 关系型数据库

Andy

MegEngine 使用小技巧:用 mperf 进行安卓 opencl 算子的 roofline 分析

MegEngineBot

深度学习 开源 MegEngine roofline

比BERT提升近10个点!百度预训练模型ERNIE登顶GLUE榜单_AI&大模型_高高_InfoQ精选文章