写点什么

浪潮信息发布 “源 2.0-M32” 开源大模型,大幅提升模算效率

InfoQ

  • 2024-05-29
    北京
  • 本文字数:3413 字

    阅读完需:约 11 分钟

浪潮信息发布 “源2.0-M32” 开源大模型,大幅提升模算效率

5 月 28 日,浪潮信息发布“源 2.0-M32”开源大模型。“源 2.0-M32”在基于“源 2.0”系列大模型已有工作基础上,创新性地提出和采用了“基于注意力机制的门控网络”技术,构建包含 32 个专家(Expert)的混合专家模型(MoE),并大幅提升了模型算力效率,模型运行时激活参数为 37 亿,在业界主流基准评测中性能全面对标 700 亿参数的 LLaMA3 开源大模型。

大模型技术解读


在算法层面,源 2.0-M32 提出并采用了一种新型的算法结构:基于注意力机制的门控网络(Attention Router),针对 MoE 模型核心的专家调度策略,这种新的算法结构关注专家模型之间的协同性度量,有效解决传统门控网络下,选择两个或多个专家参与计算时关联性缺失的问题,使得专家之间协同处理数据的水平大为提升。源 2.0-M32 采用源 2.0-2B 为基础模型设计,沿用并融合局部过滤增强的注意力机制(LFA, Localized Filtering-based Attention),通过先学习相邻词之间的关联性,然后再计算全局关联性的方法,能够更好地学习到自然语言的局部和全局的语言特征,对于自然语言的关联语义理解更准确,进而提升了模型精度。


Figure1- 基于注意力机制的门控网络(Attention Router)


在数据层面,源 2.0-M32 基于 2 万亿的 token 进行训练、覆盖万亿量级的代码、中英文书籍、百科、论文及合成数据。大幅扩展代码数据占比至 47.5%,从 6 类最流行的代码扩充至 619 类,并通过对代码中英文注释的翻译,将中文代码数据量增大至 1800 亿 token。结合高效的数据清洗流程,满足大模型训练“丰富性、全面性、高质量”的数据集需求。基于这些数据的整合和扩展,源 2.0-M32 在代码生成、代码理解、代码推理、数学求解等方面有着出色的表现。


在算力层面,源 2.0-M32 采用了流水并行的方法,综合运用流水线并行+数据并行的策略,显著降低了大模型对芯片间 P2P 带宽的需求,为硬件差异较大训练环境提供了一种高性能的训练方法。针对 MoE 模型的稀疏专家计算,采用合并矩阵乘法的方法,模算效率得到大幅提升。


基于在算法、数据和算力方面全面创新,源 2.0-M32 的性能得以大幅提升,在多个业界主流的评测任务中,展示出了较为先进的能力表现,在 MATH(数学竞赛)、ARC-C(科学推理)榜单上超越了拥有 700 亿参数的 LLaMA3 大模型。


Figure2 源 2.0-M32 业界主流评测任务表现


源 2.0-M32 大幅提升了模型算力效率,在实现与业界领先开源大模型性能相当的同时,显著降低了在模型训练、微调和推理所需的算力开销。在模型推理运行阶段,M32 处理每 token 所需算力为 7.4GFLOPs,而 LLaMA3-70B 所需算力为 140GFLOPs。在模型微调训练阶段,对 1 万条平均长度为 1024 token 的样本进行全量微调,M32 消耗算力约 0.0026PD(PetaFLOPs/s-day),而 LLaMA3 消耗算力约为 0.05PD。M32 凭借特别优化设计的模型架构,在仅激活 37 亿参数的情况下,取得了和 700 亿参数 LLaMA3 相当的性能水平,而所消耗算力仅为 LLaMA3 的 1/19,从而实现了更高的模算效率。


浪潮信息人工智能首席科学家吴韶华表示:当前业界大模型在性能不断提升的同时,也面临着所消耗算力大幅攀升的问题,对企业落地应用大模型带来了极大的困难和挑战。源 2.0-M32 是浪潮信息在大模型领域持续耕耘的最新探索成果,通过在算法、数据、算力等方面的全面创新,M32 不仅可以提供与业界领先开源大模型相当的性能,更可以大幅降低大模型所需算力消耗。大幅提升的模算效率将为企业开发应用生成式 AI 提供模型高性能、算力低门槛的高效路径。

技术创新点剖析:


Llama 系列模型的精度从 Llama1 到 Llama3 显著提升,Llama3 的精度处于领先地位,特别是其 700 亿参数的模型在每个 Token 的推理和算力上达到 140GFLOPS。尽管如此,Llama3 在推理时的算力开销较大,也就是说单位算力下的精度表现较差。


在采访环节,吴韶华回答了记者问,关于 32 个专家的优势及挑战,吴韶华解释道,当前很多大模型工作采用 8 个专家的架构,但浪潮信息选择 32 个专家,核心原因是模算效率。实验表明,在他们的 LFA 加上 Attention Router 架构中,专家数量从 8 增加到 32 时,精度显著提升,而算力开销保持不变。这是因为激活专家的数量仅为 2 个。此外,单个专家参数量为 2B,这样控制模型参数量有利于企业应用的模算效率。结果显示,这一选择在相同精度下实现了低算力消耗。


同时,由于激活的专家数量为 2 个,通过 Attention Router 机制考虑专家间协同,专家数量的增加使得每个专家或专家组能够学习更多有针对性的信息。



模算效率与成本控制也是此次大模型发布的关键讨论点。吴韶华强调,算力是当前大模型发展的核心瓶颈。MoE 结构模型通过扩展专家数量,在固定算力下获得更高精度。在多元芯片的使用上,浪潮信息的 EPAI 软件提供相关工具,支持多元算力架构,降低用户迁移设备的难度和成本。这些创新措施有助于降低用户试错成本,实现应用落地。


高模算效率意味着在单位算力投入下获得更高的精度回报,这对于大模型训练和推理都非常有利。“源 2.0-M32”模型旨在通过创新算法提升精度并降低同等精度下的算力开销,大幅提升基础模型的模算效率。“源 2.0-M32”是一个包含 32 个专家的混合专家模型,采用了 Attention Router 结构来调度专家,实现高效计算。在模型训练和推理过程中,“源 2.0-M32”表现出色,Attention Router 结构主要是通过建模专家之间的协同关系来提升模型精度。


M32 模型的训练数据筛选与优化也是核心技术点,吴韶华详细介绍了浪潮信息在训练数据方面的策略。浪潮信息从源 1.0 开始构建了互联网自然语言文库,并开发了一套数据清洗平台。对于稀缺数据(如中文数学数据),通过数据合成工具补充。M32 模型引入了大量代码数据和互联网数据,提升数据的多样性和质量。代码数据不仅对模型的代码能力有益,还能帮助解决数学问题和推理问题。最终,源 2.0-M32 模型在精度和算力开销方面优于 Llama3。


在应用落地方面,源 2.0-M32 增强了小样本学习能力,通过少量样本就能显著提升模型能力。相较于微调而言,这是一种轻量化支撑大模型应用落地的有效技术。


MoE 模型对企业开发应用和大模型普惠的影响也逐渐展现,吴韶华向大家介绍说,MoE 模型除了提升算力效率外,还能提高精度,降低使用成本,增强模型能力。MoE 模型通过激活少量专家,保持算力开销低,同时允许训练更多 Token,进一步提升精度。对于终端用户来说,关键在于解决实际问题和降低使用成本。例如,在智能客服等应用中,用户更愿意花费较少的钱解决具体问题,而不会购买高成本的大模型。


最后,吴韶华补充了大模型落地与微调的观点,大模型在应用落地时需要进行微调,这是由于预训练阶段的数据和模型能力存在局限性。微调能有效应对不同的行业需求,但算力需求较大。同时,推理阶段也是算力开销大户,因此高效的模型结构和更强的能力在实际应用中具有优势。浪潮信息通过内部实际应用场景,如客服、软件研发、运维等,不断积累经验,提升模型能力,满足更多用户需求。

回顾与展望:


回顾大模型的发展历史,我们可以看到,2020 年 GPT-3 的发布点燃了大模型的热潮。从 2020 年到 2022 年,业界在大模型能力上进行了广泛的探索。例如,2022 年推出了 GPT 强化学习方法,使大模型与人的意图对齐,建立了良好的发展思路。同年末,ChatGPT 问世,引发了大模型应用的热潮,成为增长最快且被广泛接受的大模型应用。此后,Llama 系列模型陆续推出,2024 年大模型的发展速度进一步加快。


浪潮信息的大模型研究始于 2020 年 GPT-3 发布后。2021 年,他们发布了第一个大模型“源 1.0”,拥有 2457 亿参数。2022 年,进行了应用落地探索,运用了检索类技术和 RAG 技术。2023 年,发布了“源 2.0”,并推出了“源 2.0-M32”混合专家结构模型。


关于大模型推广及触达用户,吴韶华介绍了浪潮信息大模型落地的两个方向:外部客户和内部需求。对外,浪潮信息通过与合作伙伴在 EPAI 平台上合作,提供开源模型支持,增强用户体验。对内,浪潮信息在多个业务场景中应用大模型,解决内部需求问题的同时积累经验,提升算法和工具性能,从而更好地服务外部客户。


未来,M32 开源大模型配合企业大模型开发平台 EPAI(Enterprise Platform of AI),将助力企业实现更快的技术迭代与高效的应用落地,为人工智能产业的发展提供坚实的底座和成长的土壤,加速产业智能化进程。


最后,吴韶华宣布,浪潮信息已在 GitHub 和 Hugging Face 上开源了代码和模型,并发表了相关论文。


源 2.0-M32 将持续采用全面开源策略,全系列模型参数和代码均可免费下载使用。

代码开源链接:https://github.com/IEIT-Yuan/Yuan2.0-M32

模型下载链接:https://huggingface.co/IEITYuan/Yuan2-M32-hf

https://modelscope.cn/models/YuanLLM/Yuan2-M32-hf/summary

2024-05-29 10:004995

评论

发布
暂无评论
发现更多内容

通过解析库探究函数式抽象代价

八苦-瞿昙

C#

以解析csv数据为例,讨论string、char[]、stream 不同类型来源是否能进行高性能读取解析封装可能性

八苦-瞿昙

C#

活动回顾 | DevData Talks沙龙深圳站:中小到千人规模团队研发效能提升实践

思码逸研发效能

手机厂商的开年大考:卷AI,还是卷MR?

Alter

MR 大模型 AI手机

在本地运行 LLMs 的 6 种方法

SEAL安全

人工智能 开源 LLMs

亚马逊云科技为派拓网络打造数字安全平台产品组合

财见

跨端轻量JavaScript引擎的实现与探索

京东零售技术

JavaScript

访问串是什么?有什么作用?

行云管家

运维 IT运维 访问串

云平台纳管是什么意思?用什么工具比较好?

行云管家

云计算 云服务 云平台 云管平台 云管理

通过解析库探究函数式抽象代价 ( ini 解析示例补充)

八苦-瞿昙

C#

区块链游戏解说:什么是 Arcade Champion

Footprint Analytics

蜗牛游戏宣布利用AI技术提升其开发流程

财见

SNZ资本的首席信息官Gavin确认出席Hack .Summit() 2024香港开发者大会!

TechubNews

破防了,谁懂啊家人们:记一次mysql问题排查

阿里技术

MySQL 索引 问题排查 表结构

PTS 3.0:开启智能化的压测瓶颈分析

阿里巴巴云原生

阿里云 云原生 压测

用“AI产业顾问”写企业分析报告,五天工作10分钟搞定!

飞桨PaddlePaddle

百度 BAIDU 百度飞桨 文心大模型 文心大模型4.0

喜讯 | 思码逸Devinsight 入选中国信通院《高质量数字化转型产品及服务全景图》

思码逸研发效能

即时通讯技术文集(第34期):IM群聊技术合集(Part1) [共15篇]

JackJiang

网络编程 即时通讯 IM

EMQX Enterprise 5.5 发布:新增 Elasticsearch 数据集成

EMQ映云科技

mqtt mqtt broker

测试开发名企定向培养训练营,手把手带你提升核心竞争力!

测试人

软件测试 自动化测试 测试开发

追踪Jira中项目成本与工时,更符合国人使用习惯——TimeWise工时管理

龙智—DevSecOps解决方案

DevOps DevSecOps Atlassian

聊聊Java 类属性与类方法的应用

伤感汤姆布利柏

Java 前端

教你如何用Keepalived和HAproxy配置高可用 Kubernetes 集群

华为云开发者联盟

开发 华为云 华为云开发者联盟

致 Tapdata 全体用户:2023 年,我们把更多精力集中到了产品能力和稳定性上

tapdata

数据库

策略分析:Atlassian Server版停止支持,Server版用户应该转向数据中心版本还是云版?

龙智—DevSecOps解决方案

客户案例 | 思码逸DevInsight帮助企业提炼关键指标,建立研发效能体系

思码逸研发效能

Supermicro 通过新基础设施解决方案,加速 5G 和电信云工作负载性能

财见

Udemy 上最受欢迎的免费编程课程

秃头小帅oi

php 学习 React 课程 java

浪潮信息发布 “源2.0-M32” 开源大模型,大幅提升模算效率_生成式 AI_Xue Liang_InfoQ精选文章