写点什么

对标 OpenAI GPT-4,MiniMax 国内首个 MoE 大语言模型全量上线

  • 2024-01-16
    北京
  • 本文字数:1938 字

    阅读完需:约 6 分钟

大小:1.00M时长:05:50
对标OpenAI GPT-4,MiniMax 国内首个 MoE 大语言模型全量上线

1 月 16 日,InfoQ 获悉,经过了半个月的部分客户的内测和反馈,MiniMax 全量发布大语言模型 abab6,该模型为国内首个 MoE(Mixture-of-Experts)大语言模型。

 

早在上个月举办的数字中国论坛成立大会暨数字化发展论坛的一场分论坛上,MiniMax 副总裁魏伟就曾透露将于近期发布国内首个基于 MoE 架构的大模型,对标 OpenAI GPT-4。

 

在 MoE 结构下,abab6 拥有大参数带来的处理复杂任务的能力,同时模型在单位时间内能够训练足够多的数据,计算效率也可以得到大幅提升。改进了 abab5.5 在处理更复杂、对模型输出有更精细要求场景中出现的问题。

为什么选择 MoE 架构?

 

那么,MoE 到底是什么?MiniMax 的大模型为何要使用使用 MoE 架构?

 

MoE 架构全称专家混合(Mixture-of-Experts),是一种集成方法,其中整个问题被分为多个子任务,并将针对每个子任务训练一组专家。MoE 模型将覆盖不同学习者(专家)的不同输入数据。

 

图片来源:https ://arxiv.org/pdf/1701.06538.pdf

 

有传闻称,GPT-4 也采用了相同的架构方案。

 

2023 年 4 月,MiniMax 发布了开放平台。过去半年多,MiniMax 陆续服务了近千家客户,包括金山办公、小红书、腾讯、小米和阅文在内的多家头部互联网公司,MiniMax 开放平台平均单日的 token 处理量达到了数百亿。

 

MiniMax 在官微中发文称:“这半年多来,客户给我们提供了很多有价值的反馈和建议。例如,大家认为我们做得比较好的地方有:在写作、聊天、问答等场景中,abab5.5 的表现不错,达到了 GPT-3.5 的水平。”

 

但是和最先进的模型 GPT-4 相比,仍有明显差距。这主要体现在处理更复杂的、对模型输出有精细要求的场景时,存在一定概率违反用户要求的输出格式,或是在推理过程中发生错误。当然,这不仅是 abab5.5 的问题,也是目前除 GPT-4 以外,几乎所有大语言模型存在的缺陷。

 

为了解决这个问题,进一步提升模型在复杂任务下的效果,MiniMax 技术团队从去年 6 月份起开始研发 MoE 模型——abab6 是 MiniMax 的第二版 MoE 大模型(第一版 MoE 大模型已应用于其 C 端产品中)。

 

虽然 MiniMax 并未透露 Abab6 的具体参数,但据 MiniMax 透露,Abab6 比上一个版本大了一个量级。更大的模型意味着 abab6 可以更好的从训练语料中学到更精细的规律,完成更复杂的任务。

 

但仅扩大参数量会带来新的问题:降低模型的推理速度以及更慢的训练时间。在很多应用场景中,训练推理速度和模型效果同样重要。为了保证 abab6 的运算速度,MiniMax 技术团队使用了 MoE  (Mixture of Experts 混合专家模型)结构。在该结构下,模型参数被划分为多组“专家”,每次推理时只有一部分专家参与计算。基于 MoE 结构,abab6 可以具备大参数带来的处理复杂任务的能力;计算效率也会得到提升,模型在单位时间内能够训练足够多的数据。

 

目前大部分大语言模型开源和学术工作都没有使用 MoE 架构。为了训练 abab6,MiniMax 还自研了高效的 MoE 训练和推理框架,也发明了一些 MoE 模型的训练技巧。到目前为止,abab6 是国内第一个千亿参数量以上的基于 MoE 架构的大语言模型

测评结果


为了对比各模型在复杂场景下的表现,MiniMax 对 abab6、abab5.5、GPT-3.5、GPT-4、Claude 2.1 和 Mistral-Medium 商用进行了自动评测。在简单的任务上,abab5.5 已经做得比较好,因此 MiniMax 选择了三种涵盖了较复杂的问题的评测方法:

 

IFEval:这个评测主要测试模型遵守用户指令的能力。在测试时,提问者会问模型一些带有约束条件的问题,例如“以 XX 为标题,列出三个具体对方法,每个方法的描述不超过两句话”,然后统计有多少回答严格满足了约束条件。

 

MT-Bench:这个评测衡量模型的英文综合能力。提问者会问模型多个类别的问题,包括角色扮演、写作、信息提取、推理、数学、代码、知识问答。MiniMax 技术团队会用另一个大模型(GPT-4)对模型的回答打分,并统计平均分。

 

AlignBench:该评测反映了模型的中文综合能力测试,测试形式与 MT-Bench 类似。

 

测评及对比结果如下:



注:对比模型均选择各自最新、效果最好的版本,分别为 Claude-2.1、Mistral-Medium 商用、GPT-3.5-Turbo-0613、GPT-4-1106-preview;GPT-3.5-Turbo-0613 略好于 GPT-3.5-Turbo-1106 。abab6 是 1 月 15 号的版本。

 

可以看出,abab6 在三个测试集中均明显好于前一代模型 abab5.5。在指令遵从、中文综合能力和英文综合能力上,abab6 大幅超过了 GPT-3.5。和 Claude 2.1 相比,abab6 也在指令遵从、中文综合能力和英文综合能力上略胜一筹。相较于 Mistral 的商用版本 Mistral-Medium,abab6 在指令遵从和中文综合能力上都优于 Mistral-Medium,在英文综合能力上与 Mistral- Medium 旗鼓相当。

 

如果想体验 MiniMax MoE 大模型,可访问 MiniMax 开放平台官网:api.minimax.chat

 

ps:MiniMax 方面称,模型还在持续训练中,远没有收敛,欢迎大家反馈。

2024-01-16 14:257058
用户头像
李冬梅 加V:busulishang4668

发布了 1054 篇内容, 共 668.6 次阅读, 收获喜欢 1214 次。

关注

评论

发布
暂无评论
发现更多内容

Linux系统编程-(pthread)线程通信(条件变量)

DS小龙哥

2月月更

百度AICA再添57位“首席AI架构师”,人工智能与产业场景结合愈发深入

百度开发者中心

飞桨 百度AI

如何将Perforce Helix Core与CI构建服务器结合使用

龙智—DevSecOps解决方案

ci 持续集成 持续交付 CD

某 E-Office v9 任意文件上传【漏洞复现实战】

H

网络安全 漏洞

误删D盘数据怎么办?推荐使用数据恢复软件EasyRecovery

淋雨

数据恢复 EasyRecovery

2021 年软件安全报告:代码开源,福“祸”相依?

腾源会

开源 安全

加入科学计算SIG,挑战最前沿的AI+Science研发与创新

百度开发者中心

百度AI

AI+Science:基于飞桨的AlphaFold2,带你入门蛋白质结构预测

百度开发者中心

百度AI

全球案例 | 一家有着百年历史的航空公司如何扩展和转型,推动航空业创新

龙智—DevSecOps解决方案

Atlassian Jira 航空公司

浅谈AI机器学习及实践总结 | 社区征文

张浩_house

机器学习 数据工程 机器学习算法 新春征文

Linux系统编程-(pthread)线程通信(互斥锁)

DS小龙哥

互斥锁 2月月更

成为第一没有捷径:AI新势力MindSpore成长秘籍 | 源创者说 专访胡晓曼

科技热闻

像搭积木一样定制系统,这家公司正瞄准数据库做增值服务

SphereEx

一手实录!朱广权的AI手语搭档是怎样“养成”的?

百度开发者中心

百度智能云 百度AI

基于云开发的健身房预约小程序平台

CC同学

浪潮云说丨上云迁移实践

云计算,

百度智能云开物再收“一个奖状”

百度开发者中心

工业互联网 百度智能云 百度智能云开物

实战领域驱动设计开篇

worry

领域驱动设计 DDD 领域驱动 Domain Driven Design

Web Components 系列(五)—— 关于 Templates

编程三昧

前端 组件化 2月月更

阿里云张献涛:自主最强DPU神龙的秘诀

阿里云弹性计算

阿里云 神龙架构 DPU

Linux系统编程-(pthread)线程通信(围栏机制)

DS小龙哥

2月月更 围栏机制

资讯|WebRTC M97 更新

网易云信

WebRTC

【架构训练营模块二作业】分析一下微信朋友圈的高性能复杂度

yhjhero

#架构训练营

Linux系统编程-(pthread)线程创建与使用

DS小龙哥

线程 2月月更

基于 Kyma 的企业级云原生应用的扩展案例分享 | 社区征文

汪子熙

Kubernetes 云原生 新春征文 2月月更 Kyma

DC系列靶机知识点总结

网络安全学海

网络安全 信息安全 渗透测试 WEB安全 安全漏洞

抓到Netty一个Bug,顺带来透彻地聊一下Netty是如何高效接收网络连接的

bin的技术小屋

网络编程 中间件 netty 死磕 NIO Java【

从小样本学习出发,奔向星辰大海

百度开发者中心

百度云 百度 飞桨

网络安全kali渗透学习 web渗透入门 如何进行基于ping命令的探测

学神来啦

裁员,降薪,大牛出走:AI大退却的始末缘由

脑极体

Linux系统编程-(pthread)线程通信(读写锁)

DS小龙哥

2月月更

对标OpenAI GPT-4,MiniMax 国内首个 MoE 大语言模型全量上线_生成式 AI_李冬梅_InfoQ精选文章