写点什么

百川智能正式发布开源大模型 Baichuan 2

  • 2023-09-06
    北京
  • 本文字数:1587 字

    阅读完需:约 5 分钟

大小:887.88K时长:05:03
百川智能正式发布开源大模型Baichuan 2

9 月 6 日,在北京市科学技术委员会、中关村科技园区管理委员会、北京市海淀区政府的指导下,百川智能召开主题为“百川汇海,开源共赢”的大模型发布会,中科院院士张钹亲临现场并发表致辞。会上,百川智能宣布正式开源微调后的 Baichuan2-7B、Baichuan2-13B、Baichuan2-13B-Chat 与其 4bit 量化版本,并且均为免费可商用。

百川智能此次还开源了模型训练的 Check Point,并宣布将发布 Baichuan 2 技术报告,详细介绍 Baichuan 2 的训练细节,帮助大模型学术机构、开发者和企业用户更深入的了解其训练过程,更好地推动大模型学术研究和社区的技术发展。

Baichuan 2 下载地址:https://github.com/baichuan-inc/Baichuan2 

文理兼备性能优异,超过 LLaMA 2

Baichuan2-7B-Base 和 Baichuan2-13B-Base,均基于 2.6 万亿高质量多语言数据进行训练,在保留了上一代开源模型良好的生成与创作能力,流畅的多轮对话能力以及部署门槛较低等众多特性的基础上,两个模型在数学、代码、安全、逻辑推理、语义理解等能力有显著提升。其中 Baichuan2-13B-Base 相比上一代 13B 模型,数学能力提升 49%,代码能力提升 46%,安全能力提升 37%,逻辑推理能力提升 25%,语义理解能力提升 15%。

本次开源的两个模型在各大评测榜单上的表现优秀,在 MMLU、CMMLU、GSM8K 等几大权威评估基准中,以绝对优势领先 LLaMA2,相比其他同等参数量大模型,表现也十分亮眼,性能大幅度优于 LLaMA2 等同尺寸模型竞品。

 

更值得一提的是,根据 MMLU 等多个权威英文评估基准评分 Baichuan2-7B 以 70 亿的参数在英文主流任务上与 130 亿参数量的 LLaMA2 持平。

7B 参数模型的 Benchmark 成绩

13B 参数模型的 Benchmark 成绩

Baichuan2-7B 和 Baichuan2-13B 不仅对学术研究完全开放,开发者也仅需邮件申请获得官方商用许可后,即可以免费商用。

国内首创全程开源模型训练 Check Point,助力学术研究

大模型训练包含海量高质量数据获取、大规模训练集群稳定训练、模型算法调优等多个环节。每个环节都需要大量人才、算力等资源的投入,从零到一完整训练一个模型的高昂成本,阻碍了学术界对大模型训练的深入研究。

本着协作和持续改进的精神,百川智能本次开源了模型训练从 220B 到 2640B 全过程的 Check Ponit。这对于科研机构研究大模型训练过程、模型继续训练和模型的价值观对齐等极具价值,将极大推动国内大模型的科研进展,开源训练模型过程对国内开源生态尚属首次。

技术报告揭示训练细节,繁荣开源生态

当前大部分开源模型在开源过程中只是对外公开自身的模型权重,很少提及训练细节,企业、研究机构、开发者们只能在开源模型的基础上做有限的微调,很难进行深入研究。

秉持更开放、更透明的理念,为帮助从业者深入了解 Baichuan 2 的训练过程和相关经验,更好地推动大模型社区的技术发展。百川智能在发布会上宣布,公开 Baichuan 2 的技术报告。技术报告将详细介绍 Baichuan 2 训练的全过程,包括数据处理、模型结构优化、Scaling law、过程指标等。报告链接:

https://baichuan-paper.oss-cn-beijing.aliyuncs.com/Baichuan2-technical-report.pdf 


百川智能自成立之初,就将通过开源方式助力中国大模型生态繁荣作为公司的重要发展方向。成立不到四个月,便相继发布了 Baichuan-7B、Baichuan-13B 两款开源免费可商用的中文大模型,以及一款搜索增强大模型 Baichuan-53B,两款开源大模型在多个权威评测榜单均名列前茅,目前下载量超过 500 万次。

 

不仅如此,在今年创立的大模型公司中,百川智能是唯一一家通过《生成式人工智能服务管理暂行办法》备案,可以正式面向公众提供服务的企业。凭借行业领先的基础大模型研发和创新能力,此次开源的两款 Baichuan 2 大模型,得到了上下游企业的积极响应,腾讯云、阿里云、火山方舟、华为、联发科等众多知名企业均参加了本次发布会并与百川智能达成了合作。

未来,百川智能将在开源大模型领域持续深耕,将更多的技术能力、前沿创新开放出来,与更多的合作伙伴们共同助力中国大模型生态蓬勃发展。

2023-09-06 17:555111
用户头像
赵钰莹 极客邦科技 总编辑

发布了 885 篇内容, 共 655.8 次阅读, 收获喜欢 2681 次。

关注

评论

发布
暂无评论
发现更多内容

学生管理系统架构设计文档

艾瑾行

JDV背后的技术-助力618 | 京东云技术团队

京东科技开发者

数据化 可视化软件 可视化展示 企业号 8 月 PK 榜

从原理聊JVM(四):JVM中的方法调用原理 | 京东云技术团队

京东科技开发者

Java JVM 多态 方法调用 企业号 8 月 PK 榜

小灯塔系列-中小企业数字化转型系列研究-HR测评报告

向量智库

“中国软件杯”飞桨赛道晋级决赛现场名单公布

飞桨PaddlePaddle

人工智能 百度 paddle 飞桨 百度飞桨

加速未来!汽车之家App应用性能优化总结与后续展望

之家技术

前端 性能 App 质量 质量赋能

详细的Java学习路线+Java每个阶段核心知识点+Java工作就业方向

java易二三

Java 编程 程序员 计算机 基础

Studio One 6 for mac(音乐制作工具) v6.2.0中文特别版

mac

Studio One 音乐制作软件 苹果mac

IPQ8072 VS IPQ9274 chip-What progress has WiFi 7 made compared to WiFi 6?

wifi6-yiyi

5G wifi6 WiFi7 6G

事务,不只ACID | 京东物流技术团队

京东科技开发者

分布式事务 数据库事务 事务 企业号 8 月 PK 榜 AICD

十城百校联动!HDC.Together 2023 HarmonyOS学生公开课与千余名校园学子见证鸿蒙力量

HarmonyOS开发者

HarmonyOS

基于YonGPT 的智能大搜,让知识赋能业务和组织!

用友BIP

企业服务大模型 YonGPT

Flink 实践教程:入门(12):元数据的使用

腾讯云大数据

流计算 Oceanus

技术分享 | StoneData 的身份认证与访问控制策略:构建安全可靠的数据分析环境

StoneDB

MySQL 数据库 HTAP StoneDB

一文让你了解网络安全和云安全的区别与联系

行云管家

云计算 网络安全 云安全

汽车之家铸精品工程

之家技术

质量 质量赋能 质量监控 质量指标

汽车之家APP端到端全链路治理最佳技术实践

之家技术

质量 质量赋能 端到端 质量监控 质量指标

汽车之家页面性能监控建设实践

之家技术

质量 质量赋能 质量监控 质量指标 质量检测

DDD项目落地之充血模型实践 | 京东云技术团队

京东科技开发者

DDD 充血模型 聚合根 企业号 8 月 PK 榜

什么!?它竟然是免费的!

万界星空科技

开源 MES系统 免费软件 免费开源

共建共赢鸿蒙生态,加速实现拓量增长

最新动态

为什么要推进“电子凭证会计数据标准化”?

用友BIP

电子凭证

高能预警!突发服务器入侵,学会这招快速解决

百川云开发者

运维 安全 服务器 主机安全 主机管理

用友企业服务大模型YonGPT,赋能财务、人力、业务智能化

用友BIP

企业服务大模型 YonGPT

华为终端生态商业平台颁发合作伙伴奖项!携手伙伴高效协同,聚势增长

最新动态

混合云环境实现K8S可观测的6大策略

高端章鱼哥

Kubernetes 分布式 k8s APM 混合云

SpringBoot3基础用法

Java 架构 springboot SpringBoot3

GM CHM Reader Pro for Mac(CHM文件读取器) 2.3.5激活版

mac

苹果mac CHM Reader CHM文件读取器 Windows软件

带你走进数仓大集群内幕丨详解关于作业hang及残留问题定位

华为云开发者联盟

数据库 后端 华为云 华为云开发者联盟 企业号 8 月 PK 榜

杭钢集团:用友iuap为数智底座的数智化转型之路

用友BIP

数智底座

那些被忽视的Python核心功能...

互联网工科生

Python

百川智能正式发布开源大模型Baichuan 2_生成式 AI_赵钰莹_InfoQ精选文章