写点什么

百川智能发布超千亿大模型 Baichuan 3,中文评测超越 GPT-4

  • 2024-01-29
    北京
  • 本文字数:2901 字

    阅读完需:约 10 分钟

大小:1.43M时长:08:21
百川智能发布超千亿大模型Baichuan 3,中文评测超越GPT-4

1 月 29 日,百川智能发布超千亿参数的大语言模型 Baichuan 3。

 

在多个权威通用能力评测如 CMMLU、GAOKAO 和 AGI-Eval 中,Baichuan 3 都展现了出色的能力,尤其在中文任务上更是超越了 GPT-4。而在数学和代码专项评测如 MATH、HumanEval 和 MBPP 中同样表现出色,证明了 Baichuan 3 在自然语言处理和代码生成领域的强大实力。

 

不仅如此,其在对逻辑推理能力及专业性要求极高的 MCMLE、MedExam、CMExam 等权威医疗评测上的中文效果同样超过了 GPT-4,是中文医疗任务表现最佳的大模型。Baichuan 3 还突破“迭代式强化学习”技术,进一步提升了语义理解和生成能力,在诗词创作的格式、韵律、表意等方面表现优异,领先于其他大模型。

 

链接:https://www.baichuan-ai.com/ 

百川智能做了哪些改进

 

与百亿、几百亿级别参数模型训练不同,超千亿参数模型在训练过程中对高质量数据,训练稳定性、训练效率的要求都高出几个量级。为解决相关问题,百川智能在训练过程中针对性地提出了“动态数据选择”、“重要度保持”以及“异步 CheckPoint 存储”等多种创新技术手段及方案,有效提升了 Baicuan 3 的各项能力。

 

高质量数据方面,传统的数据筛选依靠人工定义,通过滤重筛选、质量打分、Textbook 筛选等方法过滤数据。而百川智能认为,数据的优化和采样是一个动态过程,应该随着模型本身的训练过程优化,而非单纯依靠人工先验进行数据的采样和筛选。

 

为全面提升数据质量,百川智能设计了一套基于因果采样的动态训练数据选择方案,该方案能够在模型训练过程中动态地选择训练数据,极大提升数据质量。

 

训练稳定性方面,超千亿参数的模型由于参数量巨大,训练过程中经常会出现梯度爆炸、loss 跑飞、模型不收敛等问题。对此,百川智能提出了“重要度保持”(Salience-Consistency)的渐进式初始化方法,用以保证模型训练初期的稳定性。并且优化了模型训练过程的监控方案,在梯度、Loss 等指标上引入了参数“有效秩”的方法来提早发现训练过程中的问题,极大加速对训练问题的定位,确保了最后模型的收敛效果。

 

此外,为了确保在数千张 GPU 上高效且稳定地训练超千亿参数模型,百川智能同步优化了模型的训练稳定性和训练框架,并采用“异步 CheckPoint 存储”机制,可以无性能损失地加大存储的频率,减少机器故障对训练任务的影响,使 Baichuan 3 的稳定训练时间达到一个月以上,故障恢复时间不超过 10 分钟。

 

训练效率方面,百川智能针对超千亿参数模型的并行训练问题进行了一系列优化,如高度优化的 RoPE, SwiGLU 计算算子;在数据并行中实现参数通信与计算的重叠,以及在序列并行中实现激活值通信与计算的重叠,从而有效降低了通信时间的比重;在流水并行中引入了将激活值卸载至 GPU 的技术,解决了流水并行中显存占用不均的问题,减少了流水并行的分段数量并显著降低了空泡率。通过这些技术创新,Baichuan 3 的训练框架在性能方面相比业界主流框架提升超过 30%。

 

测评展示

 

中文任务成绩超越 GPT-4

 

根据百川智能,Baichuan 3 在多个英文评测中表现出色,达到接近 GPT-4 的水平。而在 CMMLU、GAOKAO、HumanEval 和 MBPP 等多个中文评测榜单上,是超越 GPT-4 展现了其在中文任务上的优势。

 

 

 

此外,在 MT-Bench、IFEval 等对齐榜单的评测中,Baichuan 3 超越了 GPT-3.5、Claude 等大模型,处于行业领先水平。

 

 

医疗数据集 Token 数超千亿,医疗能力逼近 GPT-4

 

另外值得注意的是,百川智能还给 Baichuan3 注入了丰富的医疗知识。

 

Baichuan 3 在数学和代码等多个权威评测上中文任务超越 GPT-4 的优异成绩,已经充分证明了其基础逻辑推理的能力。在拥有丰富高质量专业医疗知识,并能通过调优后的 Prompt 对这些知识进行充分激发的基础上,结合超千亿参数的推理能力,Baichuan 3 在医疗领域的任务效果提升显著,在各类中英文医疗测试中的成绩提升了 2~14 个百分点。

 

根据百川智能,Baichuan 3 在多个权威医疗评测任务中表现优异,不仅 MCMLE、MedExam、CMExam 等中文医疗任务的评测成绩超过 GPT-4,USMLE、MedMCQA 等英文医疗任务的评测成绩也逼近了 GPT-4 的水准,是医疗能力最强的中文大模型。

 

 

据悉,百川智能在模型预训练阶段构建了超过千亿 Token 的医疗数据集,包括医学研究文献、真实的电子病历资料、医学领域的专业书籍和知识库资源、针对医疗问题的问答资料等。该数据集涵盖了从理论到实际操作,从基础理论到临床应用等各个方面的医学知识,确保了模型在医疗领域的专业度和知识深度。

 

针对医疗知识激发的问题,百川智能在推理阶段针对 Prompt 做了系统性的研究和调优,通过准确的描述任务、恰当的示例样本选择,让模型输出更加准确以及符合逻辑的推理步骤,最终不仅提升了 Baichuan 3 在多项医疗考试上的成绩,并且在真实的医疗问答场景下也能给用户提供更精准、细致的反馈。

 

创作精准度再大幅提升

 

语义理解和文本生成,作为大模型最基础的底层能力,是其他能力的支柱。为提升这两项能力,业界进行了大量探索和实践,OpenAI、Google 以及 Anthropic 等引入的 RLHF(基于人类反馈的强化学习)和 RLAIF(基于 AI 反馈的强化学习)是其中的关键技术。

 

基于强化学习对齐后的模型不仅可以更精准地理解用户指令,尤其是多约束以及多轮对话下的指令,还能进一步提升生成内容的质量。但是在大模型中充分发挥强化学习的作用不仅需要稳定且高效的强化学习训练框架和高质量的优质偏序数据,还需要在“探索与利用”两者间进行平衡,实现模型能力持续爬坡。

 

对于以上问题,百川智能进行了深入研究并给出了针对性的解决方案。

 

强化学习训练框架方面,百川智能自研了训练推理双引擎融合、多模型并行调度的 PPO 训练框架,能够很好支持超千亿模型的高效训练,训练效率相比业界主流框架提升 400%。

 

偏序数据方面,百川智能创新性的采用了 RLHF 与 RLAIF 结合的方式来生成高质量优质偏序数据,在数据质量和数据成本之间获得了更好的平衡。在此基础上,对于“探索与利用”这一根本挑战,百川智能通过 PPO 探索空间与 Reward Model 评价空间的同步升级,实现“迭代式强化学习”(iterative RLHF&RLAIF)。基于强化学习的版本爬坡,可以在 SFT 的基础上进一步发挥底座模型的潜力,让 Baichuan 3 的语义理解和生成创作能力大幅提升。

 

以文本创作中最具挑战的唐诗宋词为例,作为中国传统文化的瑰宝,诗词不仅在格式、平仄、对偶、韵律等方面均有着严格的约束条件,并且内容高度凝练、寓意深远。如果仅通过 SFT 的微调学习,一方面高质量诗词的创作数据需要极高的专家成本,另一方面不能在平仄、对偶、韵律等多个方面实现较好的约束理解和遵循。此外,传统的单次 RLHF 范式在唐诗宋词面前也遇到极大挑战,PPO 在训练过程中生成的 Response 有可能超出 Reward Model 的评价范围导致“探索”的过程失控。

 

Baichuan 3 结合“RLHF&RLAIF”以及迭代式强化学习的方法,让大模型的诗词创作能力达到全新高度。可用性相比当前业界最好的模型水平提升达 500%,文采远超 GPT-4。

 

 

 

作为参数规模超过千亿的大语言模型,Baichuan 3 不仅英文效果达到接近 GPT-4 的水平,还在多项通用中文任务的表现上实现了对 GPT-4 的超越,是百川智能的全新里程碑。Baichuan 3 全面的通用能力以及在医疗领域的强大表现,将为百川智能打造“超级应用”,把大模型技术落地到诸多复杂应用场景提供有力支撑。

2024-01-29 16:107908

评论

发布
暂无评论
发现更多内容

CI/CD | 深入研究Jenkins后,我挖掘出了找到了摆脱低效率低下的方法

龙智—DevSecOps解决方案

ci 持续集成 jenkins

彻底搞懂React-hook链表构建原理

夏天的味道123

前端 React

前京东高级副总裁周伯文提前1年布局ChatGPT,现招募多名合伙人

B Impact

基于 IoT+TSDB+Quick BI 云产品架构的楼宇环境监控实战——实践类

阿里云AIoT

数据库 监控 物联网 传感器 测试技术

线上研讨会报名 | Perforce、中手游、星思半导体专家邀您一起畅聊如何通过数字资产管理与版本控制赋能大规模研发

龙智—DevSecOps解决方案

版本控制 数字资产 游戏开发 数字资产管理 芯片研发

几个你必须知道的React错误实践

xiaofeng

前端 React

腾讯前端必会react面试题合集

xiaofeng

前端 React

cmp云管平台专业厂商选择技巧看这里!

行云管家

云计算 云服务 云管平台 云计算管理工具

2023年优质的数据库审计厂商当属行云管家!

行云管家

等保 等级保护 数据库审计

谈JVM xmx, xms等内存相关参数合理性设置

京东科技开发者

JVM 内存 垃圾回收 吞吐量 企业号 2 月 PK 榜

前端leetcde算法面试套路之回溯

js2030code

JavaScript LeetCode

从 Netflix 传奇看,结果导向的产品路线图如何制定?

LigaAI

敏捷开发 研发管理 技术管理 成长路线图 企业号 2 月 PK 榜

华为云携手金蝶,探索高成长型企业“数字化创新管理”之路

华为云开发者联盟

云计算 后端 华为云 企业号 2 月 PK 榜 华为云开发者联盟

瓴羊Quick BI拥有可视化大屏功能,精准掌握所有数据内容!

小偏执o

AIGC的隐私安全问题及隐私保护技术 | 社区征文

京东科技开发者

隐私计算 语言模型 ChatGPT 企业号 2 月 PK 榜 LLM

用javascript分类刷leetcode9.位运算(图文视频讲解)

js2030code

JavaScript LeetCode

【华秋电子】晶体的选择有哪些参数?

华秋电子

校招前端高频react面试题合集

夏天的味道123

前端 React

滴滴前端高频react面试题汇总

xiaofeng

前端 React

阿里云IoT企业物联网平台 可用地域区 和 接入点信息速查——实践类

阿里云AIoT

阿里云 物联网 IoT

前端leetcde算法面试套路之堆

js2030code

JavaScript LeetCode

前端一面常见react面试题(持续更新中)

夏天的味道123

前端 React

2022年最新数据库调查报告:中国使用率最高的数据库云厂商是谁?

墨天轮

数据库 腾讯云 阿里云 华为云 上云

从实现一个React到深度理解React框架核心原理

夏天的味道123

前端 React

解析关于Tomcat Servlet-request的获取请求参数及几种常用方法

华为云开发者联盟

开发 华为云 企业号 2 月 PK 榜 华为云开发者联盟

代码质量与安全 | ChatGPT能帮到你什么还有待探索,但人工智能真的可以帮你做自动化测试

龙智—DevSecOps解决方案

人工智能 AI 软件测试 测试 自动化测试

2022年中国小微企业云财税服务市场专题分析

易观分析

数字化 财政 财税

文章转载 | 紫龙上海CTO王琦:我们对游戏工业化的探索

龙智—DevSecOps解决方案

游戏开发 游戏引擎 紫龙游戏

Atlassian Server用户新选择 | 数据中心产品是否适合您的企业(2)?

龙智—DevSecOps解决方案

Atlassian 数据中心版 server版

你要的react+ts最佳实践指南

xiaofeng

前端 React

透明led显示屏的应用指南

Dylan

LED LED display LED显示屏

百川智能发布超千亿大模型Baichuan 3,中文评测超越GPT-4_生成式 AI_褚杏娟_InfoQ精选文章