写点什么

百川智能正式发布开源大模型 Baichuan 2

  • 2023-09-06
    北京
  • 本文字数:1587 字

    阅读完需:约 5 分钟

大小:887.88K时长:05:03
百川智能正式发布开源大模型Baichuan 2

9 月 6 日,在北京市科学技术委员会、中关村科技园区管理委员会、北京市海淀区政府的指导下,百川智能召开主题为“百川汇海,开源共赢”的大模型发布会,中科院院士张钹亲临现场并发表致辞。会上,百川智能宣布正式开源微调后的 Baichuan2-7B、Baichuan2-13B、Baichuan2-13B-Chat 与其 4bit 量化版本,并且均为免费可商用。

百川智能此次还开源了模型训练的 Check Point,并宣布将发布 Baichuan 2 技术报告,详细介绍 Baichuan 2 的训练细节,帮助大模型学术机构、开发者和企业用户更深入的了解其训练过程,更好地推动大模型学术研究和社区的技术发展。

Baichuan 2 下载地址:https://github.com/baichuan-inc/Baichuan2 

文理兼备性能优异,超过 LLaMA 2

Baichuan2-7B-Base 和 Baichuan2-13B-Base,均基于 2.6 万亿高质量多语言数据进行训练,在保留了上一代开源模型良好的生成与创作能力,流畅的多轮对话能力以及部署门槛较低等众多特性的基础上,两个模型在数学、代码、安全、逻辑推理、语义理解等能力有显著提升。其中 Baichuan2-13B-Base 相比上一代 13B 模型,数学能力提升 49%,代码能力提升 46%,安全能力提升 37%,逻辑推理能力提升 25%,语义理解能力提升 15%。

本次开源的两个模型在各大评测榜单上的表现优秀,在 MMLU、CMMLU、GSM8K 等几大权威评估基准中,以绝对优势领先 LLaMA2,相比其他同等参数量大模型,表现也十分亮眼,性能大幅度优于 LLaMA2 等同尺寸模型竞品。

 

更值得一提的是,根据 MMLU 等多个权威英文评估基准评分 Baichuan2-7B 以 70 亿的参数在英文主流任务上与 130 亿参数量的 LLaMA2 持平。

7B 参数模型的 Benchmark 成绩

13B 参数模型的 Benchmark 成绩

Baichuan2-7B 和 Baichuan2-13B 不仅对学术研究完全开放,开发者也仅需邮件申请获得官方商用许可后,即可以免费商用。

国内首创全程开源模型训练 Check Point,助力学术研究

大模型训练包含海量高质量数据获取、大规模训练集群稳定训练、模型算法调优等多个环节。每个环节都需要大量人才、算力等资源的投入,从零到一完整训练一个模型的高昂成本,阻碍了学术界对大模型训练的深入研究。

本着协作和持续改进的精神,百川智能本次开源了模型训练从 220B 到 2640B 全过程的 Check Ponit。这对于科研机构研究大模型训练过程、模型继续训练和模型的价值观对齐等极具价值,将极大推动国内大模型的科研进展,开源训练模型过程对国内开源生态尚属首次。

技术报告揭示训练细节,繁荣开源生态

当前大部分开源模型在开源过程中只是对外公开自身的模型权重,很少提及训练细节,企业、研究机构、开发者们只能在开源模型的基础上做有限的微调,很难进行深入研究。

秉持更开放、更透明的理念,为帮助从业者深入了解 Baichuan 2 的训练过程和相关经验,更好地推动大模型社区的技术发展。百川智能在发布会上宣布,公开 Baichuan 2 的技术报告。技术报告将详细介绍 Baichuan 2 训练的全过程,包括数据处理、模型结构优化、Scaling law、过程指标等。报告链接:

https://baichuan-paper.oss-cn-beijing.aliyuncs.com/Baichuan2-technical-report.pdf 


百川智能自成立之初,就将通过开源方式助力中国大模型生态繁荣作为公司的重要发展方向。成立不到四个月,便相继发布了 Baichuan-7B、Baichuan-13B 两款开源免费可商用的中文大模型,以及一款搜索增强大模型 Baichuan-53B,两款开源大模型在多个权威评测榜单均名列前茅,目前下载量超过 500 万次。

 

不仅如此,在今年创立的大模型公司中,百川智能是唯一一家通过《生成式人工智能服务管理暂行办法》备案,可以正式面向公众提供服务的企业。凭借行业领先的基础大模型研发和创新能力,此次开源的两款 Baichuan 2 大模型,得到了上下游企业的积极响应,腾讯云、阿里云、火山方舟、华为、联发科等众多知名企业均参加了本次发布会并与百川智能达成了合作。

未来,百川智能将在开源大模型领域持续深耕,将更多的技术能力、前沿创新开放出来,与更多的合作伙伴们共同助力中国大模型生态蓬勃发展。

2023-09-06 17:554959
用户头像
赵钰莹 InfoQ 主编

发布了 882 篇内容, 共 641.3 次阅读, 收获喜欢 2679 次。

关注

评论

发布
暂无评论
发现更多内容

全栈混合云综合架构方案研究和落地

天翼云开发者社区

前端开发会被AI替代吗? | 社区征文

--linshuai

三周年征文

跨平台应用开发进阶(四十一)使用Xcode打包 iOS 应用 archive 时四种证书的区别详解

No Silver Bullet

uni-app 跨平台 三周年连更

高性能网络SIG月度动态:virtio-net 支持动态中断调节,SMC v2 协议增加新扩展

OpenAnolis小助手

ebpf 高性能网络 龙蜥社区 sig 月度动态

宇信科技加入正式openGauss社区

openGauss

手把手教你集成ChatGPT到公众号

派大星

ChatGPT

天翼云赋能芦山县医共体建设,为群众铺就便捷顺畅就医路

天翼云开发者社区

亚信科技AntDB数据库荣膺第十二届数据技术嘉年华(DTC 2023)“最具潜力数据库”大奖

亚信AntDB数据库

AntDB AntDB数据库 企业号 4 月 PK 榜

AI+算力,赋予天翼云数字人“最强大脑”!

天翼云开发者社区

全国计算机等级二级考试新科目—openGauss数据库程序设计

openGauss

为什么众多大型国企都在升级企业数智化底座?

用友BIP

技术大会 用友iuap 用友技术大会 升级企业数智化底座 央国企数智化转型

字节跳动的开源历程与价值思考

字节跳动开源

开源 云原生 演讲 字节

[ChatGPT 勘误] 关于 CL_WB_PGEDITOR 的用途

汪子熙

编程 abap Netweaver 思爱普 三周年连更

升级数智化底座是企业数智化转型的必经之路

用友BIP

技术大会 用友iuap 用友技术大会 升级企业数智化底座

golang-GMP模型

MegEngine 使用小技巧:使用 Optimizer 优化参数

MegEngineBot

神经网络 深度学习 开源框架 MegEngine 参数优化

三分钟完成静态网站托管

华为云开发者联盟

开发 华为云 华为云开发者联盟 企业号 4 月 PK 榜 静态网站托管

PaddleSeg 2.8版本正式发布啦!

飞桨PaddlePaddle

飞桨

惠普聚焦资源再利用、森林保护和碳排放,理念贯穿电脑全生命周期

叶落便知秋

数字先锋| “智慧旅游”新模式,天翼云助力张家界旅游产业创新发展!

天翼云开发者社区

“天翼云出海友好客户启航会”圆满收官!

天翼云开发者社区

【致地图开发者】地图开放平台假期服务公告

百度开发者中心

百度地图

成功实践丨基于昇腾,安擎助力深圳某法院司法提效

科技热闻

轻松比较文件和文件夹:Beyond Compare 4 Mac中文

真大的脸盆

Mac Mac 软件 对比工具 比较文件 对比软件

MobTech MobPush|不同手机厂商推送问题

MobTech袤博科技

【转载】“一中心四辅助” | 亚信安慧产品与解决方案全栈图谱发布

亚信AntDB数据库

AntDB AntDB数据库 企业号 4 月 PK 榜

北京 Meetup 邀你来|云上 StarRocks 极速湖仓

阿里云大数据AI技术

大数据

服务器通用背板管理(UBM)实现

天翼云开发者社区

海量数据×桂林银行 | 满足金融用户稳健周密需求,做好国内数据库演进的实践担当

openGauss

Java:如何加密或解密PDF文档?

在下毛毛雨

Java 加密 PDF java解密 解密

LED显示屏室内改为户外为何不可取?

Dylan

LED显示屏 户外LED显示屏 户内led显示屏

百川智能正式发布开源大模型Baichuan 2_生成式 AI_赵钰莹_InfoQ精选文章