写点什么

智源研究院发布我国首个超大规模智能模型“悟道 1.0”,人工智能迈向“炼大模型”阶段

  • 2021-03-21
  • 本文字数:4749 字

    阅读完需:约 16 分钟

智源研究院发布我国首个超大规模智能模型“悟道1.0”,人工智能迈向“炼大模型”阶段

智源研究院院长黄铁军教授认为,近年来人工智能的发展,已经从“大炼模型”逐步迈向了“炼大模型”的阶段。


3 月 20 日,北京智源人工智能研究院举办“智源悟道 1.0 AI 研究成果发布会暨大规模预训练模型交流论坛”。会上,智源研究院发布超大规模智能模型“悟道 1.0”。



“悟道 1.0”是我国首个超大规模智能模型系统,由智源研究院学术副院长、清华大学唐杰教授领衔,带领来自北京大学、清华大学、中国人民大学、中国科学院等单位的 100 余位 AI 科学家团队联合攻关,形成超大规模智能模型训练技术体系,训练出包括中文、多模态、认知、蛋白质预测在内的系列模型,构建我国人工智能应用基础设施。

“悟道”模型:旨在从更加本质的角度进一步探索通用智能


会上,智源研究院院长黄铁军教授介绍了“悟道”模型研发的初衷。 黄铁军表示,本轮人工智能浪潮的基本特点是“数据+算力+算法=模型”,模型浓缩了训练数据的内部规律,是实现人工智能应用的载体。


近年来人工智能的发展,已经从“大炼模型”逐步迈向了“炼大模型”的阶段,通过设计先进的算法,整合尽可能多的数据,汇聚大量算力,集约化地训练大模型,供大量企业使用,这是必然趋势。


图:智源研究院院长 黄铁军


智能模型不仅要规模大(主要体现为参数量),还要智商高,才能满足各种应用需要,这需要突破大量技术挑战。例如:如何使得预训练模型具备像人类一样的符合逻辑、意识和推理的认知能力?如何实现对图、文和视频等多模态数据和信息的理解和建模的统一?如何将中文融入预训练模型,推动中文应用背景下的人工智能的发展?如何使得预训练模型深入融入自然科学研究,在目前基础上进一步实现对超长/复杂蛋白质序列的建模和预测?


2020 年 10 月,智源研究院正式启动超大规模智能模型“悟道”项目,研发既博大又精深的超大规模训练模型,从更加本质的角度进一步探索通用人工智能。同时,构建大规模智能模型应用生态,推动相关机构和个人开发者基于模型研发各类新型智能应用。

成立“悟道”模型技术委员会


图:智源大模型技术委员会(部分),从左到右分别为黄铁军、唐杰、鄂维南、文继荣、万小军、刘知远、杨植麟


为了更好地推动“悟道”大模型的研发,保持研发过程中技术的领先性,此次发布上,还同时成立了由 9 位来自学术界和产业界的顶尖科学家组成的“悟道”大模型技术委员会。委员会主任由清华大学唐杰教授担任,委员会成员包括:北京大学鄂维南院士、清华大学鲁白教授、中国人民大学人工智能信息学院院长文继荣教授、清华大学计算机系长聘副教授刘知远、清华大学计算机系长聘副教授黄民烈、北京大学王选计算机研究所万小军研究员、一流科技创始人袁进辉、循环智能联合创始人杨植麟。 后续,技术委员会将为大模型研发的技术方案和路线选择等进行指导和把关。

“悟道 1.0”:我国首个超大规模智能模型


会上,“悟道”模型技术委员会主任、智源研究院学术副院长唐杰教授介绍了“悟道”模型的战略布局及阶段性成果。据介绍,“悟道 1.0”先期启动了 4 个大模型的研发。


图:智源学术副院长唐杰 介绍”悟道”大模型团队

1.悟道·文源:面向中文的预训练语言模型


“悟道·文源”是“以中文为核心的大规模预训练模型”,目标是构建完成全球规模最大的以中文为核心的预训练语言模型,在中英文等多个世界主流语言上取得最好的处理能力,在文本分类、情感分析、自然语言推断、阅读理解等多个任务上超越人类平均水平,探索具有通用能力的自然语言理解技术,并进行脑启发的语言模型研究。


目前,“悟道·文源”模型参数量达 26 亿,具有识记、理解、检索、数值计算、多语言等多种能力,并覆盖开放域回答、语法改错、情感分析等 20 种主流中文自然语言处理任务,技术能力已与 GPT-3 实现齐平,达到现有中文生成模型的领先效果。

2.悟道·文澜:首个公开的中文通用图文多模态预训练模型


“悟道·文澜”是“超大规模多模态预训练模型”,目标是突破基于图、文和视频相结合的多模态数据的预训练理论难题,并最终生成产业级中文图文预训练模型和应用,并在多个评测应用上超过国际最高性能。


目前,“悟道·文澜”模型参数量达 10 亿,基于从公开来源收集到的 5000 万个图文对上进行训练,是首个公开的中文通用图文多模态预训练模型。 目前,该模型性能已到达国际领先水平,在中文公开多模态测试集 AIC-ICC 的图像生成描述任务中,得分比冠军队高出 5%;在图文互检任务中,得分比目前最流行的 UNITER 模型高出 20%。


“悟道·文澜”模型已对外开放 API。发布会上,为了展示如何使用“悟道·文澜”模型,智源研究院联合中国人民大学高瓴人工智能学院和一览群智公司,推出了两款基于该模型的小应用,其中“赋魂”AI 小程序,可以为用户上传的照片配文,“AI 心情电台”小程序可以利用图片和歌词的相关性,为用户上传的照片搭配最合拍的音乐。


图:“悟道·文澜”模型根据图片自动搭配歌曲

3.悟道·文汇: 我国首个具有认知能力的超大规模预训练模型


“悟道·文汇”为“面向认知的超大规模新型预训练模型”,致力于从认知的角度研究通用人工智能中一系列更本质问题,侧重进一步提升和发展预训练模型基于逻辑、意识和推理的认知能力,目标是研发出千亿至万亿级别参数量的、更通用且性能超越国际水平的预训练模型,搭建预训练模型体系,同时形成认知智能生态。


目前,“悟道·文汇”模型的参数规模达 113 亿,在多项任务中“悟道·文汇”的表现已经接近突破图灵测试,通过简单微调就已经实现 AI 作诗、AI 作图、AI 制作视频、图文生成、图文检索、复杂推理。


例如,“悟道·文汇”模型可以应用在电商行业自动撰写商品文案等场景,在阿里电商场景下进行微调,输入以下图片。


“悟道·文汇”模型可以生成以下文字:


旗袍是一种古典的风格,它不仅能够彰显出女性优雅气质,而且还具有很好的修饰身形。这款旗袍采用了经典的圆领设计,穿着舒适自在,同时又能够展现出女性柔美的颈部线条,让你更加的迷人。精致的绣花工艺,使得整件衣服看起来更加的精致,也更加的凸显出女性的魅力。



图:“悟道·文汇”模型基于图片自动撰写商品文案


另外,“悟道·文汇”在图灵测试中已取得接近人类的作诗水平。



图:“悟道·文汇”模型实现的自动作诗


“悟道·文汇”模型还可以实现“以文生图”,自动作画。


图:“悟道·文汇”模型实现的“以文生图”

4.悟道·文溯:超大规模蛋白质序列预测预训练模型


“悟道·文溯”是“超大规模蛋白质序列预测预训练模型”,最终目标是以基因领域认知图谱为指导,研发出十亿参数规模、可以处理超长蛋白质序列的超大规模预训练模型,在基本性能、可解释性和鲁棒性等多个方面达到世界领先水平。


目前,“悟道·文溯”已在蛋白质方面完成基于 100GB UniParc 数据库训练的 BERT 模型,在基因方面完成基于 5-10 万规模的人外周血免疫细胞(细胞类型 25-30 种)和 1 万耐药菌的数据训练,同时搭建训练软件框架并验证其可扩展性。


据唐杰教授介绍,此次发布的“悟道”大模型 1.0 版本,已经完成了百亿和千亿参数规模的预训练,在多个国际评测中取得世界第一,在部分任务上具有一定认知能力。今年,还将陆续发布后续迭代版本,面向产业界开放使用。

“悟道 1.0”:构建了超大规模预训练模型技术体系


在科研方面,“悟道 1.0”模型正在逐步搭建并完善超大规模预训练模型技术体系,取得了多项国际领先的 AI 技术的突破。

1. 基础性能方面,在自然语言理解和生成、跨视觉和文字的理解与检索等多项任务上取得更好表现


(1)“悟道·文汇”提出了全新的预训练范式 GLM,以生成为核心,打破 BERT 和 GPT 瓶颈,历史上首次实现单一模型在理解、生成、seq2seq 三种任务上取得最优效果;相同训练量下,超越 BERT、RoBERTa、T5 等常见预训练模型。


(2)“悟道·文澜”发布首个公开中文通用图文多模态预训练模型,能够懂得基于图文弱相关的“内涵信息”。

2. 针对预训练模型有效使用,提出高效算法


(1)“悟道·文汇”提出基于连续向量的微调方法 P-Tuning,历史上首次实现自回归模型在理解任务上超越自编码模型,并在知识抽取(LAMA)、少样本学习(Superglue Fewshot)等 10 多个任务上取得世界第一,性能提升超 20%;


(2)“悟道·文汇”提出 Inverse Prompting 算法,显著改善了对语言模型生成结果的控制,效果大幅度超越当前最好方法,在问答和诗歌生成任务中接近人类水平,并首次实现根据现代题材创作古体诗;


(3)“悟道·文源”发布开源的中文预训练模型 CPM,并进一步开源了微调算法代码。以此为基础的模型蒸馏技术 CPM-Distill,实现语言困惑度降低 38%,在下游任务上获更好效果;


(4)“悟道·文澜”不同于 OpenAI 的 CLIP 模型,采用更先进的跨模态对比学习算法:给定某一图文对,基于 MoCo 思想,对每种模态扩大负样本数目,特别是区分难度大的负样本,进一步提高神经网络的表达能力。

3. 进一步实现规模和性能的扩增中面临的挑战


(1)“悟道·文溯”发布并开源了万亿参数模型训练的基石 FastMoE,是首个支持 PyTorch 框架的高性能 MoE(混合专家模型)系统,不再受限于谷歌软硬件,支持多种硬件,只需一行代码即可完成 MoE 化改造,相比传统 PyTorch 实现,模型训练速度提升 47 倍;


(2)“悟道·文澜”可以方便地把图像和文本的编码器替换成最先进的单模态预训练模型,随即达到增大模型表达能力的目的,在预测阶段,速度是 UNITER 模型的 20 倍,容易部署。

4. 建设并开放了全球最大中文语料数据库 WuDaoCorpora


WuDaoCorpora 数据集的数据规模达 2TB,超出之前全球最大的中文语料库 CLUECorpus2020 十倍以上,同时着重去除了数据中包含的隐私信息,防止了隐私泄露。另外,WuDaoCorpora 的数据来源丰富,包括新闻咨询、评论、百科、论坛、博客、学术论文等,使得该数据集能够适用于不同种类的自然语言处理任务,训练出的模型泛化性更强。此外,WuDaoCorpora 数据标签的完备性较高,语料中包含医疗、法律、金融等领域标签,可以依据需求抽取某个特定领域的数据,用于训练该领域的模型,也可以用于对大模型进行微调,构建某一特定领域的应用。


该数据集不仅为“悟道”项目提供了数据支撑,还可被用于中文自然语言处理领域的多种任务模型训练,包括文本生成模型、词嵌入模型、问答对话模型等,对于国际自然语言处理领域的发展将有着积极的促进作用。

应用生态“三步走”:探索“悟道”大模型生态发展


在模型研发的同时,智源研究院也在同步探索“悟道”模型的应用生态建设模式。据唐杰教授介绍,后续“悟道”模型将以开放 API(应用程序接口)的形式对外提供服务,用户通过申请并经授权后可以基于模型 API 开发各类智能化应用。另外,也会开源模型的社区版本。

图:智源研究院学术副院长 唐杰


唐杰教授介绍,下一步,“悟道”模型应用生态建设分为三个主要阶段,分别关注示范应用、API 生态及社区运营维护等。


第一阶段为示范性应用搭建,将构建面向电子商务、智能文本服务、垂直领域以及数个独立的示范性应用,将开放几个高质量的应用 Demo,支持用户在平台页面上使用及测试。第二阶段为 API 及平台生态构建,将设计多个 API,支持对模型的不同请求方式,构建支持高并发、高速推理的 API 接口,分别支持企业级用户、个人独立开发者对模型或特定功能的请求。第三阶段为社区运营及迭代,将逐步增量扩大在线评测,构建开发者及使用者社区,建立完善的使用反馈机制,并作为模型迭代的参考标准,同时加强社区维护及管理,加快模型迭代。


目前,智源研究院已启动第一阶段的示范性应用搭建,正与快手、搜狗、360、阿里、智谱华章、一览群智、循环智能、新华社等机构就模型的应用进行洽谈,联合构建一批工业级示范性应用。


下一步,智源研究院将加强用户的开发,做好用户服务,与 AI 龙头企业共同研发更多工业级示范性应用,并将加快推动 API 生态构建及社区运营迭代工作,通过举办学术交流、技术挑战赛等活动提高“悟道”模型的影响力,吸引更多 AI 企业、研究机构、个人开发者等开展基于模型的应用开发工作,推动构建国际领先的超大规模智能模型应用生态。

2021-03-21 11:443310

评论

发布
暂无评论
发现更多内容

从linux源码看epoll

无毁的湖光

Linux TCP Linux Kenel

使用Valgrind调试Linux C++程序

Simon

c++ gdb Valgrind memcheck 内存泄漏

程序员快乐器之JAVA代码生成工具

Philips

敏捷开发 程序设计 软件架构 开发工具

图计算黑科技:打开中文词嵌入训练实践新模式

腾讯云大数据

大数据

java中实现List集合中对象元素按其属性的中文拼音排序

云辰

5分钟带你掌握Makefile分析

华为云开发者联盟

makefile 脚本

实践案例丨基于Raft协议的分布式数据库系统应用

华为云开发者联盟

raft 华为云

中途转行学Java,如何赛过科班生?你只需要做到这几点

小Q

Java 程序员 架构 技术 基础

USDT承兑商支付系统搭建,区块链支付平台开发

看动画学算法之:排序-快速排序

程序那些事

排序 快速排序 数据结构和算法 看动画学算法

基于electron桌面级脚手架的设计

久违

设计 大前端 全栈

想学习数据结构和算法,推荐给你 10 本优质书单

沉默王二

数据结构 算法 书单推荐

不想码代码,你还能做什么?(一)

研发管理Jojo

项目管理 技术管理 PMO

碰撞率下降75%!Mobileye与所托瑞安宣布双方合作重大进展

最新动态

创建spring boot starter

曾彪彪

Java spring Boot Starter

东方证券企业架构之技术架构转型实践

BoCloud博云

云计算 容器 微服务 PaaS 博云

什么是云服务器,ECS它能干什么?

德胜网络-阳

ASP.NET Core 性能优化最佳实践

newbe36524

微服务 性能优化 .net core ASP.NET Core

将DevOps视为哲学——实施DevOps的绝佳方式

禅道项目管理

DevOps 测试 开发 持续交付

【写作群星榜】9.1~9.13写作平台优秀作者 & 文章排名

InfoQ写作社区官方

写作平台 排行榜 文章

区块链永续合约交易所搭建,永续合约系统开发

鹰眼 | 分布式日志系统上云的架构和实践

腾讯云大数据

大数据

一定要写点什么?!

Python中的with是测试常用到的资源打开利器

陈磊@Criss

大项目写代码写到晕头转向?敏捷多项目框架解君愁

Learun

敏捷开发 软件开发

TNFE-Weekly[第七十二周已更新]

莹姐🙈

小程序 大前端 周刊

同城双活与异地多活架构分析

vivo互联网技术

架构 高可用 架构设计 高可用系统的架构

Docker映射详解,没问题了!

程序员的时光

Docker

docker 安装consul

云辰

案例解析丨Spark Hive自定义函数应用

华为云开发者联盟

spark UDF

记一次node项目重构改进

华为云开发者联盟

Java 项目 方案

智源研究院发布我国首个超大规模智能模型“悟道1.0”,人工智能迈向“炼大模型”阶段_AI&大模型_智源研究院_InfoQ精选文章