写点什么

面壁小钢炮 3.0 重磅发布!“无限”长文本,性能超 Kimi

  • 2024-09-11
    北京
  • 本文字数:1677 字

    阅读完需:约 6 分钟

大小:830.82K时长:04:43
面壁小钢炮 3.0 重磅发布!“无限”长文本,性能超 Kimi

近日,面壁智能宣布,旗舰端侧模型面壁「小刚炮」系列进化为全新 MiniCPM 3.0 基座模型,再次以小博大,以 4B 参数,带来超越 GPT-3.5 的性能。


据介绍,MiniCPM 3.0 量化后仅 2GB 内存,端侧友好,主要特点包括:


  • 无限长文本,榜单性能超越 Kimi,超长文本也不崩;

  • 性能比肩 GPT-4o 的端侧最强 Function Calling;

  • 超强 RAG 外挂三件套,中文检索第一、生成超 Llama3-8B。


MiniCPM 3.0 开源地址:


GitHub:

🔗 https://github.com/OpenBMB/MiniCPM

HuggingFace:

🔗 https://huggingface.co/openbmb/MiniCPM3-4B


“提前近 4 个月,我们实现了初代面壁小钢炮发布时立下的 Flag:今年内让 GPT-3.5 水平的模型在端侧跑起来!”面壁智能团队表示。


据悉,MiniCPM 3.0 再次挖掘端侧模型的极致性能,仅 4B 参数,在包括自然语言理解、知识、代码、数学等多项能力上对 GPT-3.5 实现赶超,在 Qwen2-7B、 Phi-3.5、GLM4-9B、LLaMa3-8B 等一众中外知名模型脱颖而出。



历经数次调整,面壁团队构建了全新技术架构。围绕 Scaling Law 的核心,面壁将提升知识密度视为高效大模型的第一性原理(知识密度 = 模型能力 / 参与计算的模型参数),并且提出了大模型时代的“摩尔定律”:模型知识密度不断提升,平均每 8 个月提升一倍,内部称为“面壁定律”。


新一代小钢炮集长文本、Function Call 与 RAG 等大模型重要能力于一身,在这些呼声极高的模型功能上,MiniCPM 3.0 集结各家所长。

面壁“无限”长文本,性能超 Kimi


上下文长度是衡量大模型基础能力的一项重要指标,更长的上下文长度意味大模型拥有更大的“内存”和更长的“记忆”,不仅能提高大模型处理数据的能力上限,还能拓宽大模型应用的广度和深度。


面壁提出 LLMxMapReduce 长本文分帧处理技术 ,一举实现“无限”长文本。除了超越 GPT-4、KimiChat 等标杆模型的优异表现( InfiniteBench 榜单成绩),面壁还表示,文本越长,4B 小钢炮凭借愈加稳定的表现,可以展现出越强的性能优势。



InfiniteBench 大模型长文本能力的权威评测集


检索、数学、代码、问答和摘要等多维度能力评估


① MiniCPM 3.0 表现超越 GPT-4、KimiChat、Qwen2-70B;

② 千亿模型 Qwen2-70B、Llama3-70b 结合 LLMxMapReduce 也取得更佳表现。



InfiniteBench Zh.QA 评测结果显示,4B 参数的面壁小钢炮整体性能优于 Kimi,在更长的文本上表现出相较更强的稳定性。



LLMxMapReduce 技术框架图


GPT-4o 级 Function calling ,终端 Agent 应用蓄势待发


智能体应用是端侧 AI 必争之地,其中一项至关重要的技术是 Function Calling(函数调用),它能够将用户模糊化的输入语义转换为机器可以精确理解执行的结构化指令,并让大模型连接外部工具和系统,例如通过语音在手机上调用日历、天气、邮件、浏览器等 APP 或相册、文件等本地数据库,从而打开终端设备 Agent 应用的无限可能,也让人机交互更加自然和方便。


据介绍,MiniCPM 3.0 拥有端侧最强 Function calling 性能 ,在权威评测榜单 Berkeley Function-Calling Leaderboard 上,其性能接近 GPT-4o,并超越 Llama 3.1-8B、Qwen-2-7B、GLM-4-9B 等众多模型。



RAG 外挂三件套


端侧模型也能“开外挂”,RAG(检索增强生成技术)让模型引用外部知识库,检索到最新、最可靠的专业知识,确保生成内容更加可信,大大减少大模型的幻觉问题。大模型 +RAG 在行业中极其实用,尤其是对法律、医疗等依赖专业知识库、对大模型幻觉容忍度极低的垂直行业。


这次,面壁一口气带来超强 RAG 外挂三件套:MiniCPM-Embedding(检索模型)、MiniCPM-Reranker(重排序模型)和面向 RAG 场景的 LoRA 插件(生成模型),款款优秀:


  • MiniCPM-Embedding(检索模型)中英跨语言检索取得 SOTA 性能,在评估模型文本嵌入能力的权威评测集 MTEB 的检索榜单上中文第一、英文第十三 ;

  • MiniCPM-Reranker(重排序模型)在中文、英文、中英跨语言测试上取得 SOTA 性能 ;

  • 经过针对 RAG 场景的 LoRA 训练后,MiniCPM 3.0-RAG-LoRA 在开放域问答(NQ、TQA、MARCO)、多跳问答(HotpotQA)、对话(WoW)、事实核查(FEVER)和信息填充(T-REx)等多项任务上的性能表现,超越 Llama3-8B 和 Baichuan2-13B 等业内优秀模型。


2024-09-11 16:587010

评论

发布
暂无评论
发现更多内容

瑞云科技荣获全国电子信息行业专精特新“最具创新价值 TOP20”!

3DCAT实时渲染

实时云渲染如何助力虚拟展厅

3DCAT实时渲染

云计算 元宇宙 实时渲染 实时云渲染 云VR

携手共建云原生生态 阿里云云原生加速器第二次集结圆满结营

阿里巴巴云原生

阿里云 云原生加速器

NFT链游系统开发链游Dapp前景

薇電13242772558

dapp NFT

敏捷Scrum在中小型企业的落地实施方案

爱吃小舅的鱼

Salesforce解散中国团队,国产SaaS软件如何完美替代

sofiya

2022秋招面试题,至今已有672名学长靠这套Java八股文成功入职大厂

退休的汤姆

Java 程序员 面经 Java工程师 秋招

自动化运维体系必不可少的系统

穿过生命散发芬芳

自动化运维 8月月更

实时云渲染有哪些特点,主要优势有哪些

3DCAT实时渲染

云计算 元宇宙 实时渲染 实时云渲染 云VR

什么是实时渲染,实时渲染是如何工作的

3DCAT实时渲染

云计算 元宇宙 实时渲染 实时云渲染 云VR

“外卖式”售后服务体验来袭 沃丰科技ServiceGo让售后服务更智能

sofiya

【8.19-8.26】写作社区精彩技术博文回顾

InfoQ写作社区官方

优质创作周报

如何把thinkphp5的项目迁移到阿里云函数计算来应对流量洪峰?

Serverless Devs

阿里云 k8s 微服务框架

室外LED显示屏要如何进行合理的散热呢?

Dylan

LED显示屏 户外LED显示屏 led显示屏厂家

芒果TV创新研究院联合腾讯云发布“虚拟人直播互动平台”,支持千人沉浸式体验

科技热闻

多人沉浸式音乐互动,3DCAT实时云渲染新业务场景来袭

3DCAT实时渲染

云计算 元宇宙 实时渲染云

容器化 | 使用 Alpine 构建 Redis 镜像

RadonDB

redis 镜像 RadonDB 数据库·

Node.js | 从前端到全栈的必经之路

海底烧烤店ai

node.js 前端 全栈 8月月更

数据编排的音乐解法

Alluxio

科普 Alluxio 数据编排 8月月更

【温氏集团】流程驱动的运维自动化在温氏集团的实践

嘉为蓝鲸

运维 AIOPS

新书上市 | 关于推荐系统,这本书包含了你想知道的一切!

图灵社区

2022亚洲视博会圆满落幕,3DCAT荣获“优秀沉浸式视觉解决方案”奖

3DCAT实时渲染

云原生赋能智能网联汽车消息处理基础框架构建|车联网系列专题08

EMQ映云科技

车联网 物联网 IoT emq 8月月更

【计算讲谈社】第十讲|当云计算遇上碳中和

大咖说

云计算 碳中和

新书上市 | 关于推荐系统,这本书包含了你想知道的一切!

图灵教育

2分钟了解什么是实时渲染

3DCAT实时渲染

云计算 元宇宙 实时渲染 实时云渲染 云VR

关于游戏中的实时渲染

3DCAT实时渲染

云计算 元宇宙 实时渲染 实时云渲染 云VR

信息化赋能,移动办公系统WorkPlus助推智慧检务工作安全高效发展

BeeWorks

HR拥抱人工智能 沃丰科技AI助力星巴克、泰康保险打造智慧HR中心

sofiya

兆骑科创创新创业服务平台——创新创业的联通之桥

兆骑科创凤阁

华为云“828 B2B企业节”,积木易搭云速3D云展与您不见不散

sofiya

面壁小钢炮 3.0 重磅发布!“无限”长文本,性能超 Kimi_AI&大模型_褚杏娟_InfoQ精选文章