阿里达摩院发布万亿参数AI大模型M6，“神经元”达人类10倍，初具认知与创造能力_开源_阿里达摩院

AICon上海｜与字节、阿里、腾讯等企业共同探索Agent 时代的落地应用了解详情 



 写点什么

阿里达摩院发布万亿参数AI大模型M6，“神经元”达人类10倍，初具认知与创造能力

6 月 25 日，阿里巴巴达摩院发布“低碳版”巨模型 M6，在全球范围内首次大幅降低了万亿参数超大模型训练能耗，更加符合业界对低碳、高效训练 AI 大模型的迫切需求。通过一系列突破性的技术创新，达摩院团队仅使用 480 卡 GPU，即训练出了规模达人类神经元 10 倍的万亿参数多模态大模型 M6，与英伟达、谷歌等海外公司实现万亿参数规模相比，能耗降低超八成、效率提升近 11 倍。

一、M6 大模型是什么？

M6 是阿里达摩院研发的超大规模多模态预训练模型，英文全称是 MultiModality-to-MultiModality Multitask Mega-transformer，6 个 M，简称 M6。

顾名思义，M6 大模型主打多模态、多任务能力，其目标是打造全球领先的具有通用性的人工智能大模型。

今年 3 月，达摩院发布了国内首个千亿参数多模态大模型 M6，引发海外关注。OpenAI 前政策主管 Jack Clark 公开点评道：“这个模型的规模和设计都非常惊人。这看起来像是众多中国的 AI 研究组织逐渐发展壮大的一种表现。”

今日，阿里 M6 宣布升级至万亿参数，并在全球范围内首次大幅降低了万亿参数超大模型训练能耗，更加符合业界对低碳、高效训练 AI 大模型的需求。

通过一系列突破性的技术创新，达摩院团队仅使用 480 卡 V100 32G GPU，即训练出了规模达人类神经元 10 倍的万亿参数多模态大模型 M6，与英伟达、谷歌等海外公司实现万亿参数规模相比，能耗降低超八成、效率提升约 11 倍。

这一技术突破将极大降低万亿模型训练门槛，让大模型研究和工业化落地进入更加普惠的时代。

以下为 M6 发展历程：

2021 年 1 月 —— M6 百亿参数模型达成，国内首个百亿规模多模态大模型
2021 年 2 月 —— M6 千亿参数模型达成，国内首个千亿规模多模态大模型
2021 年 5 月 —— M6 万亿参数模型达成，全球范围内首次大幅降低了万亿参数超大模型训练能耗，且成为国内首个实现商业化落地的多模态大模型

二、M6 万亿大模型有哪些亮点？

AI 大模型更低碳高效：提升了超大规模预训练模型的资源利用率与训练效率，沉淀大模型高效训练的能力。对比 Nvidia(3072 A100 GPU/万亿)、Google(2048 TPU/1.6 万亿)，阿里此次仅使用 480 卡 V100 32G GPU 就实现了高效的万亿 M6 模型的训练，能耗降低超过 8 成，且效率提升近 11 倍。

AI 创造力再次升级：M6 拥有超越传统 AI 的认知和创造能力，擅长绘画、写作、问答，在电商、制造业、文学艺术等诸多领域拥有广泛应用前景。OpenAI DALL·E 生成图片清晰度达 256×256，M6 将图片生成清晰度提升至 1024×1024。更大的模型带来了更强的创造力和可直接工业化应用的前景。

AI 大模型首次商用：M6 成为国内首个实现商业化落地的多模态大模型。经过一段时间的试用，M6 将作为 AI 助理设计师正式上岗阿里新制造平台犀牛智造，通过结合潮流趋势进行快速设计、试穿效果模拟，有望大幅缩短快时尚新款服饰设计周期。M6 还已应用于支付宝、淘宝等平台，参与跨模态搜索、文案撰写、图片设计等工作。

三、M6 万亿模型有哪些关键技术突破？

从开始研发大模型起，阿里 M6 团队便格外重视 GreenAI，即提升超大规模预训练模型的资源利用率与训练效率，沉淀大模型高效训练的能力。这样更多人可用较少的成本训练或者应用大模型。

针对大模型训练资源消耗过高的难题，达摩院联合阿里云机器学习 PAI 平台、EFLOPS 计算集群等团队改进了 MOE（Mixture-of-Experts）框架，创造性地通过专家并行策略，大大扩增了单个模型的承载容量。同时，通过加速线性代数、混合精度训练、半精度通信等优化技术，达摩院团队大幅提升了万亿模型训练速度，且在效果接近无损的前提下有效降低了所需计算资源。

他们首先更细致地探索了 MoE 在预训练模型中的各类超参对模型收敛速度和精度的影响，包括 top-k 的 k 值、capacity 对 load balance 的影响、load balance 本身对效果的影响。基于这一系列的观察，他们提出了一种 Expert Prototyping 的方法，使用分组 MoE 的形式，让不同组的 MoE 通过组合能在参数规模不变的情况下，增大模型的表达空间。

他们观察到在不同规模的模型上，分组 MoE 都能取得比 baseline 更好的效果。相比于单组 switch routing 的串行实现方式，分组 MoE 可以达到更好的加速效果，并且我们发现他在更大规模的模型上优势会变得更大，如下图：

在机器方面，M6 团队最终采用的是在 Hippo 混布集群搭建模型的方案，利用的是 480 个单机单卡的 NVIDIA V100-32GB 的机器，通信为带宽为 100Gb RoCEv2 的 RDMA 网络，在 XDL 上提交任务。

四、M6 已有哪些商业化应用？

AI 设计师与智能新制造：经过试用期，M6 将作为 AI 助理设计师正式上岗阿里新制造平台犀牛智造，通过结合潮流趋势进行快速设计、试穿效果模拟，有望大幅缩短快时尚新款服饰设计周期。随着实践经验的增长，M6 设计的能力还将不断进化。

结合阿里的电商背景，M6 团队希望通过 M6 大模型优异的文到图生成能力，和电商领域产业链深度融合，挖掘潜在的应用价值。具体来说，他们已深入到从服饰设计 &生成、线上展示 &测款的完整链路，期望利用 M6 的高清图像生成能力，缩短服饰企业的存货周转率，帮助商家对潮流趋势有更好的掌控力和更快速的反应力。

此前 OpenAI DALL·E 生成图片清晰度达 256×256，M6 则将图片生成清晰度提升至 1024×1024。

以下是 M6 生成高清服装设计图的示例，设计和图案均为 AI 创作：

M6 还可生成现实中不存在的衣服类型，风格可盐可甜，可搞怪。

以下为 M6 参与新款服装设计的流程图：

工业级文案生成：除文生图外，M6 也已具备可在工业界直接落地的图生文能力，能够快速为商品等图片提供描述文案。该能力目前已在淘宝、支付宝部分业务上试应用。

在参数规模不断升级的过程中，达摩院团队发现，M6 的认知和表达能力也在不断提升：它能够观察到图片中更丰富的细节，并使用更精准的语言进行表达。

比如，在对下述风衣图片的描述中，更大参数规模的 M6 相比基础版，注意到了“经典翻领设计”“腰间系带装饰”“两侧大口袋点缀”等细节，生成文案信息量更大、措词更精准。

跨模态搜索：M6 对图片、文本的精准理解及匹配能力，已在支付宝、手机淘宝中初步试应用，有望帮助提升用户跨模态搜索的效果。

M6 团队观察到，淘宝上有很多长尾词，主要因为很多 95 后、00 后用户有非常特别的商品需求，这些需求带来了很多长尾的搜索词。比如，有用户可能想要一个表面凹凸的咖啡杯，也就是日式风格凹凸咖啡杯，因为商家一般不会把这样的细节写在商品名和描述中，单纯基于文本的搜索很难搜出对应商品。

多模态大模型为精准的跨模态搜索带来可能。目前 M6 已建立从文本到图片的匹配能力，未来，或将建立从文字到视频内容的认知能力，为搜索形态带来变革。

五、M6 团队接下来的规划？

达摩院资深算法专家杨红霞表示，“接下来，M6 团队将继续把低碳 AI 做到极致，推进应用进一步落地，并探索对通用大模型的理论研究。”

M6 团队主要关注方向如下：

继续将 GreenAI 做到极致，让更多学者和企业能参与对下一代 AI 的研究、应用。
继续推进大模型应用落地，让下一代 AI 进入包括社会公益在内的更多领域。
优化通用模型下游任务训练，让大模型在更多任务上拥有更好的表现。
探索对通用大模型的理论研究，期望揭开“How it works”。
探索大模型训练的软硬件结合，启发下一代人工智能硬件设计。

今年以来，阿里在超大规模预训练模型领域屡出成果。除发布多模态巨模型 M6 外，阿里巴巴达摩院近期还发布了中文社区领先的语言大模型 PLUG，实现了在 AI 大模型底层技术及应用上的深入布局。

发布

暂无评论

创作场景

阿里达摩院发布万亿参数 AI 大模型 M6，“神经元”达人类 10 倍，初具认知与创造能力

一、M6 大模型是什么？

二、M6 万亿大模型有哪些亮点？

三、M6 万亿模型有哪些关键技术突破？

四、M6 已有哪些商业化应用？

五、M6 团队接下来的规划？

评论

解密开源技术的污点

数字人民币双层运营架构下缘何衍生出2.5层？看完才明白，原来这么重要！

5W1H聊开源之Who和How——谁、如何参与开源？

奇亚矿机系统源码,Bzz节点分币系统搭建

iOS面试残篇-辟邪剑谱

2021-06-25 从简书迁移来到InfoQ首文

数仓备机DN重建：快速修复你的数仓DN单点故障

数字化时代，为什么解决信任问题是科技公司最重要的事情？

性能利器Takin来了！首个生产环境全链路压测平台正式开源

网络攻防学习笔记 Day55

Github自爆：阿里内部SpringBoot学习笔记，学完直接进大厂

安卓工控主板显示接口有哪些呢？

dubbo 2.7应用级服务发现踩坑小记

我的新书《C++服务器开发精髓》终于出版啦

6月GitHub上star涨得最多的repo盘点

深入C语言中数据的存储

41 位 Contributor 参与，1574 个 PR，不容错过的版本更新！

有没有字节工牌，Java并发安全的根本原因都得懂

5G时代，视频会议的未来

领导说PHP已经过时了，让我滚！！

Redis主从复制、Sentinel、集群总结

Java 的函数式接口（必懂知识点！）

CloudQuery 安全系列（一）： Http 与 Https

《Spring Framework 系列》- IOC

解析 Nebula Graph 子图设计及实践

未来法律科技发展现五大趋势，区块链、AI、大数据吸引资本目光

阿里最新秋招面经，腾讯/美团/字节1千道Java中高级面试题

社群编码识别黑灰产攻击实践

多路三线RTD电阻温度采集电路设计方案

Windows 11 这项亮点功能源自英特尔Bridge技术支持

字节跳动三面拿offer：网络+IO+redis+JVM+GC+红黑树+数据结构

创作场景

阿里达摩院发布万亿参数 AI 大模型 M6，“神经元”达人类 10 倍，初具认知与创造能力

一、M6 大模型是什么？

二、M6 万亿大模型有哪些亮点？

三、M6 万亿模型有哪些关键技术突破？

四、M6 已有哪些商业化应用？

五、M6 团队接下来的规划？

评论

更多内容推荐

推荐阅读

电子书

大厂实战PPT下载