NLP领域预训练模型发展趋势解读_大数据_张俊林

AICon 上海站｜日程100%上线，解锁Al未来！了解详情 



 写点什么

众所周知，自然语言处理领域在最近两年发生了天翻地覆的技术变革，进入了技术井喷的快速发展期，而这一巨变的引发者是由 BERT 为代表的预训练模型及新型特征抽取器 Transformer 的快速发展与普及带来的。从 BERT 的应用来看，已经在对话系统、机器阅读理解、搜索、文本分类等几乎大多数 NLP 应用领域快速应用，并在部分应用领域取得了突破性的效果提升，而且各大互联网公司都已开始普及应用 BERT 模型。从预训练模型改进的角度看，最近一年多也陆续出现了大量效果突出的改进模型，比如 XLNet、SpanBert、RoBERTa、ALBert、BART 等一系列改进。在众多的 BERT 预训练改进模型中，RoBERTa 可能是目前为止最简单有效的，它仅仅通过增加更大规模的高质量数据、延长训练时间以及增大 Batch Size 等简单手段，就能将预训练模型效果推到一个很高的精度，效果超过了很多其它的改进模型。这说明了：目前 BERT 采用的 Transformer 结构，从模型复杂度来说是足够复杂的，表达能力也足够强大，我们仅仅通过增加高质量数据、增加训练时间，依然能够极大幅度提升 BERT 的性能。相对提出新的复杂模型来说，这种改进更加简洁有效。

从模型结构来说，以 Google T5、MASS、UniLM 以及 BART 模型为代表的预训练网络结构代表了目前为止较好的模型结构，相信以后 BERT 模型的结构会逐步收敛到这个结构上来。它们都采取基于 Transformer 的 Encoder-Decoder 网络结构来进行模型预训练：Encoder 采取双向 Transformer，Decoder 则往往采取从左到右的序列生成结构 Transformer。这样做的好处是：它能够同时兼顾比如文本分类等判别类任务，也能够解决 NLP 中另外一大类任务，即生成类任务。这样就使得 BERT 的应用范围更加广泛。

从工程实用化角度看，因为 BERT 的基础结构采用了 12 层或者 24 层的 Transformer，所以存在参数量大计算速度慢的问题，而真正要想使模型大规模落地应用，如何将预训练模型做小做快是关键所在。目前在这方面的模型改进有几种思路：一种思路以 ALBert 的做法为代表。它一方面将输入单词 Embedding 参数矩阵进行矩阵分解，一方面将 Transformer 各层参数共享。通过结合两者来大量减少参数，但这种方案在计算量上并未减少，仅仅减少了模型参数；第二种是采用 Teacher-Student 模式的知识蒸馏，通过训练小的 Student 模型来模拟大的 Teacher 来减小模型大小，这样可以同时减小模型参数及计算量，以此增加计算速度；除此外，在模型压缩方面常见的剪枝、模型参数二值化等方法也同样可以应用在 BERT 的预训练模型上。总体而言，知识蒸馏是个相对更有前景的预训练模型压缩发展方向。

作为刚提出不久的新型研究范式，我们目前对 Transformer 和 BERT 为何有效的理解还比较浅显，同时 BERT 模型还有很多值得深入改进的方向，比如长文档处理、知识图谱的融合、多模态融合等，都需要进一步更深入的研究。相信随着大家对 BERT 的理解逐渐深入，对 BERT 模型的快速改进以及更多领域更好的应用效果会成为 NLP 领域的常态，我们在不远的未来会看到 NLP 领域更多新模型的出现，以及这些新技术推动实际应用场景的快速进步。

嘉宾介绍：

张俊林，中国中文信息学会理事，中科院软件所博士。目前担任新浪微博机器学习团队 AI Lab 负责人。在此之前，张俊林曾经在阿里巴巴任资深技术专家并负责新技术团队，以及在百度和用友担任技术经理及技术总监等职务。他是技术书籍《这就是搜索引擎：核心技术详解》（该书荣获全国第十二届优秀图书奖）、《大数据日知录：架构与算法》的作者。

他本科毕业于天津大学管理学院，之后在中科院软件所直接攻读博士学位，研究方向是信息检索理论与自然语言处理，就学期间曾在 ACL2006、COLING2004、IJCNLP2004 等国际顶级会议发表多篇学术论文。另外，他在此期间领导设计的搜索系统曾在美国国防部 DARPA 主持的 TREC 高精度检索系统评测中取得综合排名第一名的优异成绩。近年来，陆续在 Recsys2019 以及 ICDM2019 等国际会议发表多篇深度学习推荐系统相关论文。

张俊林老师将在 8 月份的 AICon 2020 上海站担任“NLP 技术和应用“专场出品人，和你一起谈谈 NLP 在工业界的最新技术应用，想要跟张老师现场面基的同学千万不要错过。

另外，大会还设置有智能金融、推荐广告技术及应用、AI 工程师团队建设与管理、认知智能、大数据计算和分析、智能语音前沿技术等热门专场，来自 BAT、微软、小米、华为、PayPal、快手等 50+ 一线 AI 技术大咖将带来更多精彩分享，目前大会限时 5 折报名火热进行中，更多内容欢迎咨询票务小姐姐 Amy：18514549229（同微信），我们 8 月上海不见不散！

发布

暂无评论

创作场景

NLP 领域预训练模型发展趋势解读

评论

生产环境全链路压测建设历程之十淘宝网2013年的建设过程

Spring Boot 集成 Redis

anyRTC实时音视频-社交娱乐解决方案

JVM从概述到调优图文详解，含思维脑图深度剖析！

【经验分享】RTC技术系列之音频编解码

C语言服务器编程必备常识

甲方日常 68

数据类型第2篇「字典和集合的原理和应用」

DolphinDB与MongoDB在时序数据上的对比测试

SPI 在 Dubbo中的应用

探营苏州数字人民币试点

在线医疗的发展和优势

Canvas入门实战之用javascript面向对象实现一个图形验证码

SSO的通用标准OpenID Connect

旷工三天被开除，公司赔偿十万五 | 法庭上的CTO(9)

Java并发编程：多线程如何实现阻塞与唤醒

【小菜学网络】数据链路层概述

如何快速打造一款钉钉 Go sdk

盘点2020 | 30岁了，我终于入门编程了

架构师训练营W09作业

码了2000多行代码就是为了讲清楚TLS握手流程（续）

1428万的Adobe采购纠纷 | 法庭上的CTO(10)

架构之书：雄伟与《Domain Driven Design》

量化交易APP系统软件开发（现成）

通过Postman和coding.net发布API

第三代人工智能基础设施背后，是一次技术应用的常识普及运动

架构作业--大数据

期权代持的“坑”里，加拿大人也在 | 法庭上的CTO(11)

架构师训练营 Week8 - 课后作业

从零开始学习Java8 Stream，看这篇就够了

硬核编程：30天=一个网站+一份周刊

创作场景

NLP 领域预训练模型发展趋势解读

评论

更多内容推荐

推荐阅读

电子书

大厂实战PPT下载