产品战略专家梁宁确认出席AICon北京站,分享AI时代下的商业逻辑与产品需求 了解详情
写点什么

阿里发布 PLUG:270 亿参数,中文社区最大规模预训练语言模型

  • 2021-04-19
  • 本文字数:3625 字

    阅读完需:约 12 分钟

阿里发布PLUG:270亿参数,中文社区最大规模预训练语言模型

今日,阿里巴巴正式发布预训练语言模型 PLUG,这是目前为止中文社区最大规模预训练语言模型,具备 270 亿参数,刚刚在最权威的中文语言模型榜单 CLUE 上拿到了分类领域第一。

阿里巴巴重磅发布 PLUG


4 月 19 日,在以中文为核心的超大规模语言模型领域,阿里巴巴达摩院机器智能实验室重磅发布最新训练的 270 亿参数规模的中文语言理解和生成统一模型 --PLUG (Pre-training for Language Understanding and Generation)。


据了解,PLUG 采用了 1TB 以上高质量中文文本训练数据,涵盖新闻、小说、诗歌、问答等广泛类型及领域,其模型训练依托了阿里云 EFLOPS 高性能 AI 计算集群。


PLUG 超大规模预训练中文理解 & 生成统一模型,是目前中文社区最大规模的纯文本预训练语言模型,集语言理解与生成能力于一身。其目标是通过超大模型的能力,大幅度提升中文 NLP 各大任务的表现,取得超越人类表现的性能。


根据阿里巴巴达摩院的介绍,相较于 Open AI 的 GPT-3 等其他大规模生成模型,PLUG 具备如下几个优势:


  • PLUG 是目前中文社区最大规模的纯文本预训练语言模型。

  • PLUG 集语言理解与生成能力于一身,在语言理解(NLU)任务上,以 80.179 分刷新了 Chinese GLUE 分类榜单的纪录;在语言生成(NLG)任务上,在多项应用数据上较 State-of-the-art 平均提升 8% 以上。

  • PLUG 可为目标任务做针对性优化,通过利用下游训练数据 finetune 模型使其在该特定任务上生成质量达到最优,弥补之前其它大规模生成模型 few-shot inference 的生成效果不足,适于应用在实际生成任务。

  • PLUG 采用了大规模的高质量中文训练数据(1TB 以上),同时,PLUG 采用 encoder-decoder 的双向建模方式,因此,在传统的 zero-shot 生成的表现上,无论是生成的多样性,领域的广泛程度,还是生成长文本的表现,较此前的模型均有明显的优势。

  • PLUG 开放了体验功能供学术领域试用。


在最新的中文语言理解评测基准(CLUE)中,PLUG 研发团队在 CLUE 的分类任务上测试了 PLUG 的语言理解能力,仅使用若干组超参数训练的下游模型的 ensemble 结果,即取得了第一的成绩。



注:中文语言理解评测基准(CLUE)是中文社区目前权威的预训练语言模型评测的 benchmark,吸引了众多国内企业的参与。


PLUG 技术细节


此前,达摩院机器智能实验室自研的 NLU 语言模型 StructBERT 与 NLG 语言模型 PALM 均在各自领域取得了 SOTA 的效果。简单来说,StructBERT 模型通过加强句子级别(Sentence Structural Objective)和词级别(Word Structural Objective)两个层次的训练目标中对语言结构信息的建模,加强模型对于语法的学习能力。PALM 模型则结合了 Autoencoding 和 Autoregression 两种预训练方式,引入 Masked LM 目标来提升 encoder 的表征能力,同时通过预测文本后半部分来提升 decoder 的生成能力。此次大规模语言模型的训练,达摩院团队汲取二者所长,提出了一个简单的框架,用来进行 NLU&NLG 联合训练。相比于 GPT 系列模型,该大规模生成模型以 StructBERT 作为 encoder,有着很强的输入文本双向理解能力,从而可以生成和输入更相关的内容。


整个训练流程分为两个阶段。首先在第一阶段,达摩院团队训练了一个 24 layers/8192 hidden size 的标准 StructBERT 模型作为 encoder。这个过程共计训练了 300B tokens 的训练数据,规模与 GPT-3 的训练规模相当。


在第二阶段,达摩院团队将这个 encoder 用于生成模型的初始化,并外挂了一个 6 layers / 8192 hidden size 的 decoder,在训练生成模型的过程中,在 encoder 端和 decoder 端均随机确定长度 [32, 512] 进行数据采样,确保适应下游广泛的生成任务。这一阶段共计训练了 100B tokens 的训练数据,前 90% 的训练中,团队保留了 Masked LM 任务以保持模型的 NLU 能力,后 10% 的训练中,去掉 MLM 任务进行微调,以使得生成的 PPL 降到更低,能取得更好的生成效果。


PLUG 生成示例展示


PLUG 生成模型有着很强的长文本生成和建模能力,相比于 GPT 系列模型的单向建模,PLUG 对输入的理解是双向建模的,因此能够在给定小段输入的条件下,生成和输入内容相关且信息量丰富的长文本。直接用预训练好的模型在小说续写、诗歌生成、菜谱生成等场景下测试,示例如下(以小说续写和专业文稿撰写为例):


小说续写


输入:话说宝玉和凤姐回家,见过众人,宝玉便回明贾母要约秦钟上家塾之事,自己也有个伴读的朋友,正好发愤;又着实称赞秦钟人品行事,最是可人怜爱的。凤姐又在一旁帮着说:“改日秦钟还来拜见老祖宗呢。”说的贾母喜欢起来。凤姐又趁势请贾母一同过去看戏。贾母虽年高,


输出:但身上还有几分力气,便命凤姐陪她看戏。贾母一个劲儿的让出一条道来,凤姐便陪他到一边。不想戏刚刚上场,只见从人堆里,挤出两个老人来,都是身着绸衣,头上扎着两根簪儿,后面跟着两个老人。贾母一眼便认出来,这便是邢岫烟。这邢岫烟原是贾环的外孙女婿,邢夫人的外孙宝玉看了,也不觉的诧异。一时,那邢岫烟和贾环一干人等,就围着贾母、凤姐、秦钟等。一时,邢岫烟又叫:邢夫人来。贾环等不胜其扰,一时都来到邢夫人的房门口。只见邢夫人正站在窗口,向窗内张望。邢岫烟便向邢夫人笑道:邢二婶子,你看这窗户这么大,难道窗子不是贾环等听见,都来看戏。只见邢夫人也在一旁,忙向邢夫人打听起邢岫烟的来历来。邢夫人听见贾环在此,忙向邢岫烟说道:邢夫人,你也在这里看戏。邢岫烟听说,忙向邢夫人道:邢二婶子,你来的正好,正好可以问问你。邢二婶子,你可认得他么?邢夫人道:认得。邢夫人笑道:你认得他吗?


专业文稿撰写


输入:目标检测是计算机视觉的一个重要研究方向,其目的是精确识别给定图像中特定目标物体的类别和位置。近年来,


输出:视觉技术已经成为计算机视觉领域中研究热点,视觉智能的发展将对传感方式、感知技术、图像处理技术、自然语言处理等方面产生深刻影响。视觉传感器在工业生产、军事领域中的应用已越来越广泛。但是我们在实际生产中经常遇到一些难题,例如传感器的检测难题,传感器的校准难题,传感器的应用领域不明确,传感器的性能评估不一致等等,这些都是传感器在工业生产中实际应用中遇到的难题。


中文预训练模型发展现状


自 18 年谷歌 BERT 横空出世以来,预训练语言模型一跃成为自然语言处理领域的研究热点,海量数据与大规模模型的预训练 + 少量下游任务数据微调(Pre-training + Fine-tune)也成为 NLP 任务的新范式。从在开源数据集上进行评测到业务实践中的价值体现,预训练语言模型都被证明能够显著提高模型性能和算法效果。如果说预训练语言模型是 2019 年以来 NLP 领域的关键词,随着 GPT 系列模型的诞生,各大公司和研究机构的军备竞赛为其又冠上了大规模这一限定词。在这一态势下,亟需建立以中文为核心的超大规模预训练模型。


2020 年 11 月份,北京智源人工智能研究院和清华大学研究团队合作开展大规模预训练模型,并发布清源 CPM (Chinese Pretrained Models) 研究计划,旨在推动中文自然语言处理的研究与应用。清源 CPM 计划将依托智源研究院新建的人工智能算力平台,建立以中文为核心的超大规模预训练模型,进行基于超大规模预训练语言模型的少次学习能力以及多任务迁移能力研究,探索更具通用能力的语言深度理解技术。2020 年 11 月中旬,CPM 开放第一阶段的 26 亿参数规模的中文语言模型 (CPM-LM) 和 217 亿参数规模的结构化知识表示模型 (CPM-KM) 下载,以及相应的系统演示。


关于预训练模型的大量实验表明,更大的模型参数和更多的预训练数据,通常能够带来更好的下游任务效果,这类模型被证明在各种少样本学习 NLP 任务中十分有效。传统预训练模型往往需要经过有监督训练数据微调 (Fine-tuning),才能解决各种自然语言处理任务。而第一版 CPM 中文语言模型与 GPT-3 等预训练模型类似,仅需要通过少次、单次学习甚至零次学习,就能完成不同自然语言处理任务,具备一定的常识和认知的泛化能力。CPM 模型从大规模的中文语料库中学习了通用的语言模式,有望显著提升中文自然语言处理各任务的性能。初步的实验表明,CPM 模型能够用于问题解答、摘要和对话以及生成各种文本包括随笔、小说、代码、电子表格等。


按照清源 CPM 的规划,2021 年 7 月份到 9 月份,整个模型将包含约 1000 亿参数,训练数据包括 1TB 以中文为核心的多语言数据和亿级实体关系图谱。


如今,阿里巴巴正式发布 PLUG,再一次推进了中文社区预训练模型的发展。接下来,PLUG 将扩大参数规模至 2000 亿级,并进一步提升文本生成质量。除以中文为核心的 PLUG(270 亿参数)外,达摩院还联合智源研究院、清华大学发布了面向认知的超大规模新型预训练模型“文汇”(113 亿参数),以及联合清华大学发布了超大规模多模态预训练模型“M6”(千亿参数)。


与 PLUG 发布同步,达摩院宣布近期将开源阿里巴巴语言模型体系大部分重要模型。阿里达摩院语言技术实验室负责人司罗表示,“达摩院 NLP 团队将进一步攻克自然语言处理领域科研难题,完善中文及跨语言人工智能基础设施,让 AI 没有难懂的语言,并探索通用人工智能之路。”

2021-04-19 13:146860
用户头像
赵钰莹 InfoQ 主编

发布了 882 篇内容, 共 642.4 次阅读, 收获喜欢 2679 次。

关注

评论 1 条评论

发布
用户头像
能完备些吗?既然发布,给个发布地址呀...
2021-04-20 10:13
回复
没有更多了
发现更多内容

创建git分支命名原则

百度搜索:蓝易云

空壳产品之路:分身类应用你受够了吗?

iofomo

产品 工具 生产力 Android APP 微信分身

第三届OpenHarmony技术大会发布年度课题并表彰领航课题

科技热闻

openai chatgpt 大语言模型

霍格沃兹测试开发学社

Ubuntu 22报错:PAM unable to dlopen(pam_tally2.so)

百度搜索:蓝易云

OpenHarmony统一互联PMC启动孵化

科技热闻

Swarm 框架登场:OpenAI 第 3 阶段「敲门砖」;马斯克的 Teslabot 实际有人远程操控丨 RTE 开发者日报

声网

Swarms Corporation创始人Kye Gomez实锤OpenAI多智能体Swarm抄袭其成果!|AI日报

可信AI进展

第三届OpenHarmony技术大会星光璀璨,致谢社区贡献者

科技热闻

功能完备的 SVN 客户端SmartSVN for Mac

Mac相关知识分享

ERP系统是什么?ERP系统如何与数据库对接?

RestCloud

数据挖掘 数据库 数据同步 ETL ERP

MPI高性能计算和集合通信编程

王玉川

HPC 集合通信 高性能计算

“OpenHarmony开发者激励计划”授牌仪式圆满举行

科技热闻

视频增强和修复工具:Topaz Video AI (Win/Mac) 中文特别版

你的猪会飞吗

Topaz Video AI下载 Topaz Video AI破解版 Topaz Video AI中文版

Microsoft OneNote 2019 for Mac(云笔记)中文版

Mac相关知识分享

Mac 电脑的系统监控工具iStat Menus for mac

Mac相关知识分享

电脑监控工具

Go 语言基准测试入门

FunTester

深度解析淘宝商品评论API返回值:评价热度与关注度

代码忍者

pinduoduo API API 性能测试

【MM2024】阿里云 PAI 团队图像编辑算法论文入选 MM2024

阿里云大数据AI技术

人工智能 阿里云 论文 图像编辑 MM2024

01.单例模式设计思想

杨充

什么是数据治理?我国与新加坡的数据治理有何异同

郑州埃文科技

数据治理

网站云服务器配置方案

百度搜索:蓝易云

DockerCompose部署es和kibana

百度搜索:蓝易云

ubuntu22.04开机自启动Eureka服务

百度搜索:蓝易云

Cloudera Hue深度解析:安装、配置到高级用法

敏捷调度TASKCTL

hadoop cloudera hue 大数据运维

PDF 编辑和管理软件Acrobat Pro DC 2023 for mac中文版

Mac相关知识分享

软件 PDF软件

Spring 实现 3 种异步流式接口,干掉接口超时烦恼

程序员小富

Java spring 异步设计

不起眼的错误参数导致remote-debugging-port不生效

LLLibra146

chrome macos Python 3.12

用PyTorch, Profiler和TensorBoard优化AI训练性能

王玉川

profiler 性能调优 PyTorch tensorboard AI模型训练

在研发效能度量中,如何避免过度投入?

思码逸研发效能

DevOps 研发效能 效能度量

Macos 的全景图拼接制作工具PTGui Pro for Mac

Mac相关知识分享

图片编辑 全景拼接工具

阿里发布PLUG:270亿参数,中文社区最大规模预训练语言模型_AI&大模型_赵钰莹_InfoQ精选文章