HarmonyOS开发者限时福利来啦!最高10w+现金激励等你拿~ 了解详情
写点什么

对标 OpenAI GPT-4,MiniMax 国内首个 MoE 大语言模型全量上线

  • 2024-01-16
    北京
  • 本文字数:1938 字

    阅读完需:约 6 分钟

大小:1.00M时长:05:50
对标OpenAI GPT-4,MiniMax 国内首个 MoE 大语言模型全量上线

1 月 16 日,InfoQ 获悉,经过了半个月的部分客户的内测和反馈,MiniMax 全量发布大语言模型 abab6,该模型为国内首个 MoE(Mixture-of-Experts)大语言模型。

 

早在上个月举办的数字中国论坛成立大会暨数字化发展论坛的一场分论坛上,MiniMax 副总裁魏伟就曾透露将于近期发布国内首个基于 MoE 架构的大模型,对标 OpenAI GPT-4。

 

在 MoE 结构下,abab6 拥有大参数带来的处理复杂任务的能力,同时模型在单位时间内能够训练足够多的数据,计算效率也可以得到大幅提升。改进了 abab5.5 在处理更复杂、对模型输出有更精细要求场景中出现的问题。

为什么选择 MoE 架构?

 

那么,MoE 到底是什么?MiniMax 的大模型为何要使用使用 MoE 架构?

 

MoE 架构全称专家混合(Mixture-of-Experts),是一种集成方法,其中整个问题被分为多个子任务,并将针对每个子任务训练一组专家。MoE 模型将覆盖不同学习者(专家)的不同输入数据。

 

图片来源:https ://arxiv.org/pdf/1701.06538.pdf

 

有传闻称,GPT-4 也采用了相同的架构方案。

 

2023 年 4 月,MiniMax 发布了开放平台。过去半年多,MiniMax 陆续服务了近千家客户,包括金山办公、小红书、腾讯、小米和阅文在内的多家头部互联网公司,MiniMax 开放平台平均单日的 token 处理量达到了数百亿。

 

MiniMax 在官微中发文称:“这半年多来,客户给我们提供了很多有价值的反馈和建议。例如,大家认为我们做得比较好的地方有:在写作、聊天、问答等场景中,abab5.5 的表现不错,达到了 GPT-3.5 的水平。”

 

但是和最先进的模型 GPT-4 相比,仍有明显差距。这主要体现在处理更复杂的、对模型输出有精细要求的场景时,存在一定概率违反用户要求的输出格式,或是在推理过程中发生错误。当然,这不仅是 abab5.5 的问题,也是目前除 GPT-4 以外,几乎所有大语言模型存在的缺陷。

 

为了解决这个问题,进一步提升模型在复杂任务下的效果,MiniMax 技术团队从去年 6 月份起开始研发 MoE 模型——abab6 是 MiniMax 的第二版 MoE 大模型(第一版 MoE 大模型已应用于其 C 端产品中)。

 

虽然 MiniMax 并未透露 Abab6 的具体参数,但据 MiniMax 透露,Abab6 比上一个版本大了一个量级。更大的模型意味着 abab6 可以更好的从训练语料中学到更精细的规律,完成更复杂的任务。

 

但仅扩大参数量会带来新的问题:降低模型的推理速度以及更慢的训练时间。在很多应用场景中,训练推理速度和模型效果同样重要。为了保证 abab6 的运算速度,MiniMax 技术团队使用了 MoE  (Mixture of Experts 混合专家模型)结构。在该结构下,模型参数被划分为多组“专家”,每次推理时只有一部分专家参与计算。基于 MoE 结构,abab6 可以具备大参数带来的处理复杂任务的能力;计算效率也会得到提升,模型在单位时间内能够训练足够多的数据。

 

目前大部分大语言模型开源和学术工作都没有使用 MoE 架构。为了训练 abab6,MiniMax 还自研了高效的 MoE 训练和推理框架,也发明了一些 MoE 模型的训练技巧。到目前为止,abab6 是国内第一个千亿参数量以上的基于 MoE 架构的大语言模型

测评结果


为了对比各模型在复杂场景下的表现,MiniMax 对 abab6、abab5.5、GPT-3.5、GPT-4、Claude 2.1 和 Mistral-Medium 商用进行了自动评测。在简单的任务上,abab5.5 已经做得比较好,因此 MiniMax 选择了三种涵盖了较复杂的问题的评测方法:

 

IFEval:这个评测主要测试模型遵守用户指令的能力。在测试时,提问者会问模型一些带有约束条件的问题,例如“以 XX 为标题,列出三个具体对方法,每个方法的描述不超过两句话”,然后统计有多少回答严格满足了约束条件。

 

MT-Bench:这个评测衡量模型的英文综合能力。提问者会问模型多个类别的问题,包括角色扮演、写作、信息提取、推理、数学、代码、知识问答。MiniMax 技术团队会用另一个大模型(GPT-4)对模型的回答打分,并统计平均分。

 

AlignBench:该评测反映了模型的中文综合能力测试,测试形式与 MT-Bench 类似。

 

测评及对比结果如下:



注:对比模型均选择各自最新、效果最好的版本,分别为 Claude-2.1、Mistral-Medium 商用、GPT-3.5-Turbo-0613、GPT-4-1106-preview;GPT-3.5-Turbo-0613 略好于 GPT-3.5-Turbo-1106 。abab6 是 1 月 15 号的版本。

 

可以看出,abab6 在三个测试集中均明显好于前一代模型 abab5.5。在指令遵从、中文综合能力和英文综合能力上,abab6 大幅超过了 GPT-3.5。和 Claude 2.1 相比,abab6 也在指令遵从、中文综合能力和英文综合能力上略胜一筹。相较于 Mistral 的商用版本 Mistral-Medium,abab6 在指令遵从和中文综合能力上都优于 Mistral-Medium,在英文综合能力上与 Mistral- Medium 旗鼓相当。

 

如果想体验 MiniMax MoE 大模型,可访问 MiniMax 开放平台官网:api.minimax.chat

 

ps:MiniMax 方面称,模型还在持续训练中,远没有收敛,欢迎大家反馈。

2024-01-16 14:256729
用户头像
李冬梅 加V:busulishang4668

发布了 943 篇内容, 共 536.9 次阅读, 收获喜欢 1105 次。

关注

评论

发布
暂无评论

27岁了,程序员写给自己的一封信

学习Java的小姐姐

程序员 生活 总结 程序媛 职场回顾

9种 分布式ID生成方案,我替你整理好了

程序员小富

Java MySQL 分布式

面试官为什么喜欢拿 Kafka 考验求职者

奈学教育

kafka

厉害了,SpaceX-API 开源了

非著名程序员

GitHub 开源 程序员

createRef、useRef、useMemo对比分析和应用场景

费马

React Hooks useRef useMemo createRef

《Oracle Java SE编程自学与面试指南》最佳学习路线图(2020最新版)

ATGU:阿宝哥

ARTS-Week 01

chasel

持续集成实践系列 」Jenkins 构建 CI 自动化流水线常见技巧 (二)

狂师

持续集成 jenkins jenkins-plugin CI/CD

PlantUML 的介绍和使用

Puran

UML PlantUML

程序员未来会成为非常内卷的职业?

非著名程序员

程序员 程序人生 职业 职业规划

实时更新:计算机编程语言排行榜—TIOBE世界编程语言排行榜(2020年6月份最新版)

ATGU:阿宝哥

从SDL到DevSecOps:始终贯穿开发生命周期的安全

Fooying

DevOps SDL DevSecOps 安全开发 软件开发生命周期

Elasticsearch-Base

子路无倦

elasticsearch search 搜索

关于Synchronized锁升级,你该了解这些

学习Java的小姐姐

并发编程 synchronized 轻量级锁 偏向锁 重量级锁

存储让“想象”势不可挡

焱融科技

2020年5月北京BGP机房网络质量评测报告

博睿数据

网络 服务器 存储 机房 主机

LeetCode 1339. Maximum Product of Splitted Binary Tree

隔壁小王

算法

Dubbo Cluster集群那点你不知道的事。

why技术

源码 面试 dubbo 集群容错

Java技术奇迹

ATGU:阿宝哥

《龙教授私享会职场沟通心法》最佳学习路线(2020最新版)

ATGU:阿宝哥

为什么你在群里的提的技术问题没人回答?

古时的风筝

程序员 提问的艺术

ARTS打卡-02

Geek_yansheng25

硬不硬你说了算!近 40 张图解被问千百遍的 TCP 三次握手和四次挥手面试题

小林coding

面试 TCP 网络安全 网络编程 计算机网络

cpu分析利器 — async-profiler

捉虫大师

Java cpu profiler

C#和TS的范型实例化

猫定谔的靴

C# typescript 泛型

分布式系统技术:存储之数据库

奈学教育

分布式

如何辨别有发展潜力的员工​

Neco.W

工作 招聘

大话设计模式 | 1 简单工厂模式

Puran

C# 设计模式 PlantUML

前端开发必备工具箱

LeanCloud

CSS 性能优化 vscode 大前端 工具

读《平凡的世界》

YoungZY

读书

从技术思维角度聊一聊『程序员』摆地摊的正确姿势

牧码哥

随笔杂谈 技术人生 经验分享

对标OpenAI GPT-4,MiniMax 国内首个 MoE 大语言模型全量上线_生成式 AI_李冬梅_InfoQ精选文章