HarmonyOS开发者限时福利来啦!最高10w+现金激励等你拿~ 了解详情
写点什么

NLP 领域预训练模型发展趋势解读

  • 2020-03-12
  • 本文字数:1850 字

    阅读完需:约 6 分钟

NLP领域预训练模型发展趋势解读

众所周知,自然语言处理领域在最近两年发生了天翻地覆的技术变革,进入了技术井喷的快速发展期,而这一巨变的引发者是由 BERT 为代表的预训练模型及新型特征抽取器 Transformer 的快速发展与普及带来的。 从 BERT 的应用来看,已经在对话系统、机器阅读理解、搜索、文本分类等几乎大多数 NLP 应用领域快速应用,并在部分应用领域取得了突破性的效果提升,而且各大互联网公司都已开始普及应用 BERT 模型。从预训练模型改进的角度看,最近一年多也陆续出现了大量效果突出的改进模型,比如 XLNet、SpanBert、RoBERTa、ALBert、BART 等一系列改进。在众多的 BERT 预训练改进模型中,RoBERTa 可能是目前为止最简单有效的,它仅仅通过增加更大规模的高质量数据、延长训练时间以及增大 Batch Size 等简单手段,就能将预训练模型效果推到一个很高的精度,效果超过了很多其它的改进模型。这说明了:目前 BERT 采用的 Transformer 结构,从模型复杂度来说是足够复杂的,表达能力也足够强大,我们仅仅通过增加高质量数据、增加训练时间,依然能够极大幅度提升 BERT 的性能。相对提出新的复杂模型来说,这种改进更加简洁有效。


从模型结构来说,以 Google T5、MASS、UniLM 以及 BART 模型为代表的预训练网络结构代表了目前为止较好的模型结构,相信以后 BERT 模型的结构会逐步收敛到这个结构上来。它们都采取基于 Transformer 的 Encoder-Decoder 网络结构来进行模型预训练:Encoder 采取双向 Transformer,Decoder 则往往采取从左到右的序列生成结构 Transformer。这样做的好处是:它能够同时兼顾比如文本分类等判别类任务,也能够解决 NLP 中另外一大类任务,即生成类任务。这样就使得 BERT 的应用范围更加广泛。


从工程实用化角度看,因为 BERT 的基础结构采用了 12 层或者 24 层的 Transformer,所以存在参数量大计算速度慢的问题,而真正要想使模型大规模落地应用,如何将预训练模型做小做快是关键所在。目前在这方面的模型改进有几种思路:一种思路以 ALBert 的做法为代表。它一方面将输入单词 Embedding 参数矩阵进行矩阵分解,一方面将 Transformer 各层参数共享。通过结合两者来大量减少参数,但这种方案在计算量上并未减少,仅仅减少了模型参数;第二种是采用 Teacher-Student 模式的知识蒸馏,通过训练小的 Student 模型来模拟大的 Teacher 来减小模型大小,这样可以同时减小模型参数及计算量,以此增加计算速度;除此外,在模型压缩方面常见的剪枝、模型参数二值化等方法也同样可以应用在 BERT 的预训练模型上。总体而言,知识蒸馏是个相对更有前景的预训练模型压缩发展方向。


作为刚提出不久的新型研究范式,我们目前对 Transformer 和 BERT 为何有效的理解还比较浅显,同时 BERT 模型还有很多值得深入改进的方向,比如长文档处理、知识图谱的融合、多模态融合等,都需要进一步更深入的研究。相信随着大家对 BERT 的理解逐渐深入,对 BERT 模型的快速改进以及更多领域更好的应用效果会成为 NLP 领域的常态,我们在不远的未来会看到 NLP 领域更多新模型的出现,以及这些新技术推动实际应用场景的快速进步。


嘉宾介绍:


张俊林,中国中文信息学会理事,中科院软件所博士。目前担任新浪微博机器学习团队 AI Lab 负责人。在此之前,张俊林曾经在阿里巴巴任资深技术专家并负责新技术团队,以及在百度和用友担任技术经理及技术总监等职务。他是技术书籍《这就是搜索引擎:核心技术详解》(该书荣获全国第十二届优秀图书奖)、《大数据日知录:架构与算法》的作者。


他本科毕业于天津大学管理学院,之后在中科院软件所直接攻读博士学位,研究方向是信息检索理论与自然语言处理,就学期间曾在 ACL2006、COLING2004、IJCNLP2004 等国际顶级会议发表多篇学术论文。另外,他在此期间领导设计的搜索系统曾在美国国防部 DARPA 主持的 TREC 高精度检索系统评测中取得综合排名第一名的优异成绩。近年来,陆续在 Recsys2019 以及 ICDM2019 等国际会议发表多篇深度学习推荐系统相关论文。


张俊林老师将在 8 月份的 AICon 2020 上海站担任“NLP 技术和应用“专场出品人,和你一起谈谈 NLP 在工业界的最新技术应用,想要跟张老师现场面基的同学千万不要错过。


另外,大会还设置有智能金融、推荐广告技术及应用、AI 工程师团队建设与管理、认知智能、大数据计算和分析、智能语音前沿技术等热门专场,来自 BAT、微软、小米、华为、PayPal、快手等 50+ 一线 AI 技术大咖将带来更多精彩分享,目前大会限时 5 折报名火热进行中,更多内容欢迎咨询票务小姐姐 Amy:18514549229(同微信),我们 8 月上海不见不散!



2020-03-12 15:172408

评论

发布
暂无评论
发现更多内容

RazorSQL for Mac(多功能SQL数据库编辑器) v10.6.1注册激活版

Rose

「最新永久激活版」DaVinci Resolve Studio 19 ( 达芬奇影视后期调色剪辑) v19.0B5激活版

Rose

Dato for Mac(菜单栏时钟软件) v5.3.1激活版

Rose

Sketch for mac(专业矢量绘图设计软件) v100.2中文激活版

Rose

蓝易云 - 在云上使用过哪些外网暴露服务,简单说一下优缺点(nginx-ingress,treafik,云alb,云loadblance)

百度搜索:蓝易云

nginx 运维 云服务器 Traefik loadbalance

蓝易云 - 中小型企业为什么纷纷选择云服务器?

百度搜索:蓝易云

运维 服务器 云服务器 服务器租用 高防服务器

Rhinoceros 8 (犀牛8 中文最新版) v8.9下载

Rose

借助大模型能力,晓多科技智能客服的效率与服务双提升

新消费日报

「空投」对于项目来说是好是坏?

TechubNews

网络爬虫开发:JavaScript与Python特性的小差异

我再BUG界嘎嘎乱杀

Python JavaScript 爬虫 开发语言

麻省理工IOT教授撰写的1058页Python程序设计人工智能实践手册!

我再BUG界嘎嘎乱杀

Python 人工智能 程序设计 后端 开发语言

如何冲破大模型时代的算力关卡?天翼云给出答案

脑极体

AI

DBeaverEE for Mac(数据库管理) v24.1.3 企业激活版

Rose

选择户外LED显示屏的4个理由

Dylan

互联网 广告 信息 LED LED显示屏

分享 | 建设全渠道反欺诈平台 持续提升交易风险管控能力

芯盾时代

金融 反欺诈 风控系统 风险检测

项目提效神器:10款顶级项目工单管理系统

爱吃小舅的鱼

项目管理 项目管理系统 工单管理 项目工单管理 项目工单管理系统

Ghost Buster Pro for mac(苹果电脑内存清理专家) v3.3.2激活版

Rose

作为ToB市场总监的你 被老板质疑过花销太大吗?

客户在哪儿AI

ToB营销 ToB获客 ToB增长 ToB销售

Dynamic Wallpaper for Mac 个性化高清动态壁纸软件 苹果壁纸下载

Rose

人工智能:重塑语言翻译的未来

天津汇柏科技有限公司

人工智能 语言翻译

VMware ESXi 8.0U3 macOS Unlocker & OEM BIOS Huawei (华为) 定制版

sysin

macos esxi OEM

Magic Disk Cleaner for Mac(磁盘垃圾清理工具) v2.8.1激活版

Rose

Marked 2 for Mac(文件预览工具) v2.6.38免激活版

Rose

阿里云 EMR StarRocks VS 开源版本功能差异介绍

阿里云大数据AI技术

大数据 数据仓库 OLAP EMR

得物AB实验平台数据驱动决策实践

得物技术

大数据 架构 统计学 企业号2024年7月PK榜

Workflow通用并发控制组件:ResourcePool资源池

1412

c++ 开源项目 workflow 并发’

AI技术图像编辑软件:Luminar Neo for Mac/win 激活版

你的猪会飞吗

苹果软件下载 Mac破解软件

DBeaverUE for Mac(数据库管理软件) v24.1.3 旗舰激活版

Rose

蓝易云 - MySQL的Json类型个人用法详解

百度搜索:蓝易云

json MySQL 云计算 运维 数据

NLP领域预训练模型发展趋势解读_大数据_张俊林_InfoQ精选文章