HarmonyOS开发者限时福利来啦!最高10w+现金激励等你拿~ 了解详情
写点什么

阿里达摩院发布万亿参数 AI 大模型 M6,“神经元”达人类 10 倍,初具认知与创造能力

  • 2021-06-25
  • 本文字数:2924 字

    阅读完需:约 10 分钟

阿里达摩院发布万亿参数AI大模型M6,“神经元”达人类10倍,初具认知与创造能力

6 月 25 日,阿里巴巴达摩院发布“低碳版”巨模型 M6,在全球范围内首次大幅降低了万亿参数超大模型训练能耗,更加符合业界对低碳、高效训练 AI 大模型的迫切需求。通过一系列突破性的技术创新,达摩院团队仅使用 480 卡 GPU,即训练出了规模达人类神经元 10 倍的万亿参数多模态大模型 M6,与英伟达、谷歌等海外公司实现万亿参数规模相比,能耗降低超八成、效率提升近 11 倍。

一、M6 大模型是什么?

 

M6 是阿里达摩院研发的超大规模多模态预训练模型,英文全称是 MultiModality-to-MultiModality Multitask Mega-transformer,6 个 M,简称 M6。

 

顾名思义,M6 大模型主打多模态、多任务能力,其目标是打造全球领先的具有通用性的人工智能大模型。

 

今年 3 月,达摩院发布了国内首个千亿参数多模态大模型 M6,引发海外关注。OpenAI 前政策主管 Jack Clark 公开点评道:“这个模型的规模和设计都非常惊人。这看起来像是众多中国的 AI 研究组织逐渐发展壮大的一种表现。”

 

今日,阿里 M6 宣布升级至万亿参数,并在全球范围内首次大幅降低了万亿参数超大模型训练能耗,更加符合业界对低碳、高效训练 AI 大模型的需求。

 

通过一系列突破性的技术创新,达摩院团队仅使用 480 卡 V100 32G GPU,即训练出了规模达人类神经元 10 倍的万亿参数多模态大模型 M6,与英伟达、谷歌等海外公司实现万亿参数规模相比,能耗降低超八成、效率提升约 11 倍。

 

这一技术突破将极大降低万亿模型训练门槛,让大模型研究和工业化落地进入更加普惠的时代。


以下为 M6 发展历程:


  • 2021 年 1 月 —— M6 百亿参数模型达成,国内首个百亿规模多模态大模型 

  • 2021 年 2 月 —— M6 千亿参数模型达成,国内首个千亿规模多模态大模型

  • 2021 年 5 月 —— M6 万亿参数模型达成,全球范围内首次大幅降低了万亿参数超大模型训练能耗,且成为国内首个实现商业化落地的多模态大模型

二、M6 万亿大模型有哪些亮点?


AI 大模型更低碳高效:提升了超大规模预训练模型的资源利用率与训练效率,沉淀大模型高效训练的能力。对比 Nvidia(3072 A100 GPU/万亿)、Google(2048 TPU/1.6 万亿),阿里此次仅使用 480 卡 V100 32G GPU 就实现了高效的万亿 M6 模型的训练,能耗降低超过 8 成,且效率提升近 11 倍。


AI 创造力再次升级:M6 拥有超越传统 AI 的认知和创造能力,擅长绘画、写作、问答,在电商、制造业、文学艺术等诸多领域拥有广泛应用前景。OpenAI DALL·E 生成图片清晰度达 256×256,M6 将图片生成清晰度提升至 1024×1024。更大的模型带来了更强的创造力和可直接工业化应用的前景。


AI 大模型首次商用:M6 成为国内首个实现商业化落地的多模态大模型。经过一段时间的试用,M6 将作为 AI 助理设计师正式上岗阿里新制造平台犀牛智造,通过结合潮流趋势进行快速设计、试穿效果模拟,有望大幅缩短快时尚新款服饰设计周期。M6 还已应用于支付宝、淘宝等平台,参与跨模态搜索、文案撰写、图片设计等工作。

三、M6 万亿模型有哪些关键技术突破?


从开始研发大模型起,阿里 M6 团队便格外重视 GreenAI,即提升超大规模预训练模型的资源利用率与训练效率,沉淀大模型高效训练的能力。这样更多人可用较少的成本训练或者应用大模型。


针对大模型训练资源消耗过高的难题,达摩院联合阿里云机器学习 PAI 平台、EFLOPS 计算集群等团队改进了 MOE(Mixture-of-Experts)框架,创造性地通过专家并行策略,大大扩增了单个模型的承载容量。同时,通过加速线性代数混合精度训练半精度通信等优化技术,达摩院团队大幅提升了万亿模型训练速度,且在效果接近无损的前提下有效降低了所需计算资源。


他们首先更细致地探索了 MoE 在预训练模型中的各类超参对模型收敛速度和精度的影响,包括 top-k 的 k 值、capacity 对 load balance 的影响、load balance 本身对效果的影响。基于这一系列的观察,他们提出了一种 Expert Prototyping 的方法,使用分组 MoE 的形式,让不同组的 MoE 通过组合能在参数规模不变的情况下,增大模型的表达空间。


他们观察到在不同规模的模型上,分组 MoE 都能取得比 baseline 更好的效果。相比于单组 switch routing 的串行实现方式,分组 MoE 可以达到更好的加速效果,并且我们发现他在更大规模的模型上优势会变得更大,如下图:



在机器方面,M6 团队最终采用的是在 Hippo 混布集群搭建模型的方案,利用的是 480 个单机单卡的 NVIDIA V100-32GB 的机器,通信为带宽为 100Gb RoCEv2 的 RDMA 网络,在 XDL 上提交任务。

四、M6 已有哪些商业化应用?


AI 设计师与智能新制造:经过试用期,M6 将作为 AI 助理设计师正式上岗阿里新制造平台犀牛智造,通过结合潮流趋势进行快速设计、试穿效果模拟,有望大幅缩短快时尚新款服饰设计周期。随着实践经验的增长,M6 设计的能力还将不断进化。


结合阿里的电商背景,M6 团队希望通过 M6 大模型优异的文到图生成能力,和电商领域产业链深度融合,挖掘潜在的应用价值。具体来说,他们已深入到从服饰设计 &生成、线上展示 &测款的完整链路,期望利用 M6 的高清图像生成能力,缩短服饰企业的存货周转率,帮助商家对潮流趋势有更好的掌控力和更快速的反应力。


此前 OpenAI DALL·E 生成图片清晰度达 256×256,M6 则将图片生成清晰度提升至 1024×1024。



 以下是 M6 生成高清服装设计图的示例,设计和图案均为 AI 创作:



M6 还可生成现实中不存在的衣服类型,风格可盐可甜,可搞怪。



以下为 M6 参与新款服装设计的流程图:



工业级文案生成:除文生图外,M6 也已具备可在工业界直接落地的图生文能力,能够快速为商品等图片提供描述文案。该能力目前已在淘宝、支付宝部分业务上试应用。


在参数规模不断升级的过程中,达摩院团队发现,M6 的认知和表达能力也在不断提升:它能够观察到图片中更丰富的细节,并使用更精准的语言进行表达。


比如,在对下述风衣图片的描述中,更大参数规模的 M6 相比基础版,注意到了“经典翻领设计”“腰间系带装饰”“两侧大口袋点缀”等细节,生成文案信息量更大、措词更精准。


跨模态搜索:M6 对图片、文本的精准理解及匹配能力,已在支付宝、手机淘宝中初步试应用,有望帮助提升用户跨模态搜索的效果。


M6 团队观察到,淘宝上有很多长尾词,主要因为很多 95 后、00 后用户有非常特别的商品需求,这些需求带来了很多长尾的搜索词。比如,有用户可能想要一个表面凹凸的咖啡杯,也就是日式风格凹凸咖啡杯,因为商家一般不会把这样的细节写在商品名和描述中,单纯基于文本的搜索很难搜出对应商品。

多模态大模型为精准的跨模态搜索带来可能。目前 M6 已建立从文本到图片的匹配能力,未来,或将建立从文字到视频内容的认知能力,为搜索形态带来变革。



 五、M6 团队接下来的规划?


达摩院资深算法专家杨红霞表示,“接下来,M6 团队将继续把低碳 AI 做到极致,推进应用进一步落地,并探索对通用大模型的理论研究。”


M6 团队主要关注方向如下:


  • 继续将 GreenAI 做到极致,让更多学者和企业能参与对下一代 AI 的研究、应用。

  • 继续推进大模型应用落地,让下一代 AI 进入包括社会公益在内的更多领域。

  • 优化通用模型下游任务训练,让大模型在更多任务上拥有更好的表现。

  • 探索对通用大模型的理论研究,期望揭开“How it works”。

  • 探索大模型训练的软硬件结合,启发下一代人工智能硬件设计。


今年以来,阿里在超大规模预训练模型领域屡出成果。除发布多模态巨模型 M6 外,阿里巴巴达摩院近期还发布了中文社区领先的语言大模型 PLUG,实现了在 AI 大模型底层技术及应用上的深入布局。

2021-06-25 11:1912357

评论

发布
暂无评论
发现更多内容

翻译: Effective Go (7)

申屠鹏会

翻译 Go 语言

学习技术先从学会使用搜索引擎开始

我是程序员小贱

真正的异步API网关Agate

dinstone

Async API Gateway

docker入个门

书旅

Docker 容器 Dockerfile

troubleshoot之:使用JFR分析性能问题

程序那些事

Java 性能分析 jfr

为什么考研,考研能给你带来什么?说说我的感受!

我是程序员小贱

解析 hashMap 源码之基本操作 get

shengjk1

Java hashmap

鲲鹏一粤,智算万里

脑极体

翻译: Effective Go (6)

申屠鹏会

翻译 Go 语言

1 时间复杂度总结

我是程序员小贱

1 学习性能优化的要点

我是程序员小贱

解析 HashMap 源码之基本操作 put

shengjk1

Java hashmap

华为的“少年天才”攀登者,出发向智能存储的“奥林帕斯山”

脑极体

如何隐藏你的数据库密码

Rayjun

安全 服务器

如何学习一个框架?

云帆

Spring如何选择类构造器

申屠鹏会

翻译 Go 语言

解析 HashMap 源码概括

shengjk1

Java hashmap

毕玄大佬的分享以及给我的感悟

白色蜗牛

Java 程序员 技术 职场 架构师

Apache Mina和Netty的历史

dinstone

Elasticsearch学习

张明森

MySQL 基准测试

多选参数

MySQL

Docker搭建PHP+Nginx+MySQL+Redis

书旅

Docker 镜像 lnmp

【DevOps】我们忽视了Daily Build(每日构建)吗?

Man

DevOps jenkins 每日构建

阿里、力扣、政采云的15位专家分享前端面试与招聘视角

三钻

面试 大前端

你生日那天的宇宙什么样子知道?我全部给你吧!

我是程序员小贱

让你起飞的20个Linux命令骚操作

我是程序员小贱

平均负载是什么?

我是程序员小贱

高效程序员的45个习惯:敏捷开发修炼之道(1)

石云升

读书笔记 敏捷开发

MEDO 项目开发中遇到的问题汇总

陈皮

敏捷到底是个什么鬼?

刘华Kenneth

程序员 敏捷 change

Rust特征与泛型区别点

编号94530

rust 泛型 封装、继承、多态

阿里达摩院发布万亿参数AI大模型M6,“神经元”达人类10倍,初具认知与创造能力_开源_阿里达摩院_InfoQ精选文章