面壁小钢炮 3.0 重磅发布！“无限”长文本，性能超 Kimi_AI&大模型_褚杏娟



1.0x 

大小：830.82K时长：04:43

近日，面壁智能宣布，旗舰端侧模型面壁「小刚炮」系列进化为全新 MiniCPM 3.0 基座模型，再次以小博大，以 4B 参数，带来超越 GPT-3.5 的性能。

据介绍，MiniCPM 3.0 量化后仅 2GB 内存，端侧友好，主要特点包括：

无限长文本，榜单性能超越 Kimi，超长文本也不崩；
性能比肩 GPT-4o 的端侧最强 Function Calling；
超强 RAG 外挂三件套，中文检索第一、生成超 Llama3-8B。

MiniCPM 3.0 开源地址：

GitHub:

🔗 https://github.com/OpenBMB/MiniCPM

HuggingFace:

🔗 https://huggingface.co/openbmb/MiniCPM3-4B

“提前近 4 个月，我们实现了初代面壁小钢炮发布时立下的 Flag：今年内让 GPT-3.5 水平的模型在端侧跑起来！”面壁智能团队表示。

据悉，MiniCPM 3.0 再次挖掘端侧模型的极致性能，仅 4B 参数，在包括自然语言理解、知识、代码、数学等多项能力上对 GPT-3.5 实现赶超，在 Qwen2-7B、 Phi-3.5、GLM4-9B、LLaMa3-8B 等一众中外知名模型脱颖而出。

历经数次调整，面壁团队构建了全新技术架构。围绕 Scaling Law 的核心，面壁将提升知识密度视为高效大模型的第一性原理（知识密度 = 模型能力 / 参与计算的模型参数），并且提出了大模型时代的“摩尔定律”：模型知识密度不断提升，平均每 8 个月提升一倍，内部称为“面壁定律”。

新一代小钢炮集长文本、Function Call 与 RAG 等大模型重要能力于一身，在这些呼声极高的模型功能上，MiniCPM 3.0 集结各家所长。

面壁“无限”长文本，性能超 Kimi

上下文长度是衡量大模型基础能力的一项重要指标，更长的上下文长度意味大模型拥有更大的“内存”和更长的“记忆”，不仅能提高大模型处理数据的能力上限，还能拓宽大模型应用的广度和深度。

面壁提出 LLMxMapReduce 长本文分帧处理技术，一举实现“无限”长文本。除了超越 GPT-4、KimiChat 等标杆模型的优异表现（ InfiniteBench 榜单成绩），面壁还表示，文本越长，4B 小钢炮凭借愈加稳定的表现，可以展现出越强的性能优势。

InfiniteBench 大模型长文本能力的权威评测集

检索、数学、代码、问答和摘要等多维度能力评估

① MiniCPM 3.0 表现超越 GPT-4、KimiChat、Qwen2-70B；

② 千亿模型 Qwen2-70B、Llama3-70b 结合 LLMxMapReduce 也取得更佳表现。

InfiniteBench Zh.QA 评测结果显示，4B 参数的面壁小钢炮整体性能优于 Kimi，在更长的文本上表现出相较更强的稳定性。

LLMxMapReduce 技术框架图

GPT-4o 级 Function calling ，终端 Agent 应用蓄势待发

智能体应用是端侧 AI 必争之地，其中一项至关重要的技术是 Function Calling（函数调用），它能够将用户模糊化的输入语义转换为机器可以精确理解执行的结构化指令，并让大模型连接外部工具和系统，例如通过语音在手机上调用日历、天气、邮件、浏览器等 APP 或相册、文件等本地数据库，从而打开终端设备 Agent 应用的无限可能，也让人机交互更加自然和方便。

据介绍，MiniCPM 3.0 拥有端侧最强 Function calling 性能，在权威评测榜单 Berkeley Function-Calling Leaderboard 上，其性能接近 GPT-4o，并超越 Llama 3.1-8B、Qwen-2-7B、GLM-4-9B 等众多模型。

RAG 外挂三件套

端侧模型也能“开外挂”，RAG（检索增强生成技术）让模型引用外部知识库，检索到最新、最可靠的专业知识，确保生成内容更加可信，大大减少大模型的幻觉问题。大模型 +RAG 在行业中极其实用，尤其是对法律、医疗等依赖专业知识库、对大模型幻觉容忍度极低的垂直行业。

这次，面壁一口气带来超强 RAG 外挂三件套：MiniCPM-Embedding（检索模型）、MiniCPM-Reranker（重排序模型）和面向 RAG 场景的 LoRA 插件（生成模型），款款优秀：

MiniCPM-Embedding（检索模型）中英跨语言检索取得 SOTA 性能，在评估模型文本嵌入能力的权威评测集 MTEB 的检索榜单上中文第一、英文第十三；
MiniCPM-Reranker（重排序模型）在中文、英文、中英跨语言测试上取得 SOTA 性能；
经过针对 RAG 场景的 LoRA 训练后，MiniCPM 3.0-RAG-LoRA 在开放域问答（NQ、TQA、MARCO）、多跳问答（HotpotQA）、对话（WoW）、事实核查（FEVER）和信息填充（T-REx）等多项任务上的性能表现，超越 Llama3-8B 和 Baichuan2-13B 等业内优秀模型。

发布

暂无评论

创作场景

面壁小钢炮 3.0 重磅发布！“无限”长文本，性能超 Kimi

面壁“无限”长文本，性能超 Kimi

GPT-4o 级 Function calling ，终端 Agent 应用蓄势待发

RAG 外挂三件套

评论

图解Numpy教程

机器学习神器Scikit-Learn入门

web技术分享| WebRTC记录音视频流

火山引擎科技原力峰会：超视频时代如何提供交互性、高清化音视频体验

尚硅谷Kafka新版视频教程发布

大数据培训：Flink窗口的开始时间的计算

实时数仓：基于 Flink CDC 实现 Oracle 数据实时更新到 Kudu

【行业云说直播间】就在明天下午！聚焦园区数智化转型

MySQL 常用备份工具流程解析

王者荣耀异地多活架构设计

《MySQL入门很轻松》第5章：数据完整性及其分类

架构实战营第 4 期模块七作业

AngularJS + Ionic 开发移动端 Hybrid 项目实战总结| 社区征文

安全创新厂商长亭科技加入，牵手龙蜥共建网络安全新生态

web前端培训：开发过程中比较实用的 Linux 命令

Numpy可视化绘图

聊聊 Pulsar：在 Linux 环境上搭建 Pulsar

模块七作业

再见收费的Navicat！操作所有数据库就靠它了！

基于随机森林模型的心脏病人预测分类

从线程与进程的区别这一问题出发

Nacos中服务删除不了，怎么办？

CentOS 安装 Oracle（单机版）

基于流计算 Oceanus（Flink） CDC 做好数据集成场景

机器学习入门知识

剑指offer笔试题 · 常量字符串

Linux系统编程-进程间通信(管道)

库珀科技招聘Java/前端/测试[20~60K][18~24薪][成都][可远程]

eBPF 科普第一弹｜初识 eBPF，你应该知道的知识

MySQL RR级别的实现

WebRTC 服务器架构 | 社区征文

创作场景

面壁小钢炮 3.0 重磅发布！“无限”长文本，性能超 Kimi

面壁“无限”长文本，性能超 Kimi

GPT-4o 级 Function calling ，终端 Agent 应用蓄势待发

RAG 外挂三件套

评论

更多内容推荐

推荐阅读

电子书

大厂实战PPT下载