写点什么

百川智能与鹏城实验室开展合作,突破国产算力大模型长窗口技术

  • 2023-11-17
    北京
  • 本文字数:1410 字

    阅读完需:约 5 分钟

大小:729.25K时长:04:08
百川智能与鹏城实验室开展合作,突破国产算力大模型长窗口技术

11 月 16 日,百川智能鹏城实验室宣布携手探索大模型训练和应用,合作研发基于国产算力的 128K 长窗口大模型“鹏城-百川·脑海 33B”。这是国产算力大模型创新与落地的一次实践,对国产算力大模型发展具有积极示范作用。



百川智能携手鹏城实验室助力国产算力大模型创新

 

众所周知,训练大模型需要海量的算力,并且大模型参数数量的增长与算力的平方成正比。大模型性能的竞争,一定程度上是算力的比拼。在复杂多变的国际环境下,国内算力供给与需求之间的“鸿沟”持续扩大,国产化算力已经成为国内大模型企业的必要选择。

 

虽然国内诸多企业在通用 AI 芯片方面早有布局,在芯片量产、生态构建、应用拓展领域也取得了不错进展,但基于国产算力训练大模型,仍面临着生态建设、成本控制、能效比优化等阻碍。因此算力完全自主,仍需要芯片厂商、大模型企业、学术科研机构等多方共同努力。

 

鹏城实验室表示,鹏城实验室秉持“国产算力+自主大模型”的创新理念,依托“鹏城·脑海”开源联合体,广泛联合企业、高校和科研院所,致力于通过开源群智的合作模式共享资源,为千行百业插上人工智能的“翅膀”。百川智能是国内领先的大模型企业,自成立以来一直在推动大模型研发和开源生态建设,其开源和闭源模型在同等量级权威评测中都取得了优异成绩。双方在合作过程中能够充分发挥各自优势形成合力,更好地满足我国不断增长的智能化转型需求,助力中国人工智能产业快速崛起。

 

百川智能表示,百川智能希望通过开源、与合作伙伴共创等方式助力中国大模型创新,繁荣本土大模型生态。鹏城实验室作为国家战略科技力量的重要组成部分,在国产算力大模型研发和应用等方面一直处于国内领先位置。本次百川智能与鹏城实验室合作研发“鹏城-百川·脑海 33B”长窗口大模型,是国产算力大模型技术创新和落地的一次突破。未来,百川智能将在技术、算力等诸多维度不断深化与鹏城实验室的合作,持续助力本土大模型创新发展。

 

国产算力最长上下文窗口,“鹏城-百川·脑海 33B”率先实现国产算力技术突破

 

论坛上,百川智能和鹏城实验室展示了双方共同研发的“鹏城-百川·脑海 33B”大模型。“鹏城-百川·脑海 33B”的 128K 长上下文窗口基于“鹏城云脑”国产算力平台训练,未来可升级至 192K,是基于国产算力训练的最长上下文窗口。

 

上下文窗口长度对模型理解和生成与特定上下文相关的文本至关重要,是大模型的核心技术之一。通常而言,更长的上下文窗口可以提供更丰富的语义信息、消除歧义,能够让模型生成的内容更准确、更流畅。

 

为了更好地提升“鹏城-百川·脑海 33B”上下文窗口长度和模型整体性能,百川智能和鹏城实验室对模型进行了全流程优化。在数据集构建方面,采用精细的数据构造,实现了段落、句子粒度的自动化数据过滤、选择、配比,良好的提升了数据质量;在训练架构上,通过 NormHead、max-Z-Loss、dynamic-LR 等自研或业界领先的模型训练优化技术,对 Transformer 模块进行深度优化,确保模型收敛稳定的同时,全面提升了模型优化效率和最终效果;此外,还在全生命周期的模型工具集中,通过与北京大学王亦洲、杨耀东老师团队的合作,首创了带安全约束的 RLHF 对齐技术,有效提升了模型内容生成质量和安全性。

 

未来,双方将在国产算力大模型技术创新和模型落地等方面继续加强合作,并与相关领域的优势单位如北京大学、清华大学等开展协同创新,助力本土大模型在模型性能、技术创新方面持续突破,推动本土大模型进一步开源开放,为更多行业智能化转型提供帮助和支持。

2023-11-17 14:261434

评论

发布
暂无评论
发现更多内容

干货分享!JAVA诊断工具Arthas在Rainbond上实践~

北京好雨科技有限公司

Kubernetes Arthas 企业号九月金秋榜

切流的基本逻辑

agnostic

切流

jdbcs之连接池和框架

楠羽

JDBC 笔记 9月月更

ShareSDK Android端分享与授权示例代码

MobTech袤博科技

android sdk

不清楚产品帮助中心怎么设置?从这几点出发!

Baklib

产品 帮助中心

数据如何指导决策:优酷主客APP播转率的C端优化

阿里巴巴文娱技术

数据分析 数据 BI

OpenHarmony——内核IPC机制数据结构解析

OpenHarmony开发者

OpenHarmony

数字藏品电商平台开发:如何开发数字藏品?

开源直播系统源码

区块链 NFT 数字藏品 数字藏品系统 数字藏品软件

【JavaWeb】Servlet系列——模板方法设计模式、HttpServlet源码分析、Web站点的欢迎页面、关于WEB-INF目录

胖虎不秃头

Web java; 9月月更

从数据库发展史看数据库未来技术趋势

OceanBase 数据库

清远市等保测评公司有几家?分别在哪里?

行云管家

网络安全 等保 等保测评 等级测评 清远

2022 DEMO CHINA创新中国峰会拉开帷幕

创业邦

高效工作,文档协作必不可少

Baklib

高效工作 文档协作

中小企业如何有效应对计算资源的弹性变化需求?

阿里巴巴中间件

阿里云 Serverless 云原生 中小企业

Java 在Word文档中添加艺术字

在下毛毛雨

Java word 添加艺术字

java开发培训好还是自学好?

小谷哥

软件测试 | 测试开发 | 基于php-code-coverage的增量代码覆盖率实现

测吧(北京)科技有限公司

php 测试 PHP框架

一文详解东数西算下绿色数据中心节能减排十大技术、智算中心八大趋势

GPU算力

软件测试 | 测试开发 | vue双向绑定原理实现

测吧(北京)科技有限公司

Vue 测试框架

【DBA100人】胡中豪:国产分布式数据库DBA炼成记

OceanBase 数据库

【JavaWeb】Servlet系列——请求和响应过程的角色和协议、模拟Servlet本质、开发第一个带有Servlet的Webapp、关于Java EE的版本

胖虎不秃头

Web java; 9月月更

利用京东云Web应用防火墙实现Web入侵防护

京东科技开发者

网络安全 安全 防火墙 WEB安全 京东云

Maven的下载安装配置以及IDAEA中Maven的配置

守夜人st

9月月更

Java注解详细

石臻臻的杂货铺

Java 阅读 9月月更

24小时的客户服务如何实现?来建立产品知识库吧!

Baklib

产品 知识库 客户服务

SpringBoot源码 | printBanner方法解析

六月的雨在InfoQ

源码 springboot 9月月更 springboot源码

Spring源码解析(十二)Spring扩展接口SmartInstantiationAwareBeanPostProcessor解析

石臻臻的杂货铺

spring 9月月更

web前端培训班口碑哪个比较好

小谷哥

深圳参加java培训哪个机构靠谱

小谷哥

【JavaWeb】Servlet系列——响应HTML代码、Servlet连接数据库、IDEA开发Servlet程序、Servlet对象的生命周期、Generic

胖虎不秃头

Web java; 9月月更

启科量子公布量子计算机工程化进展

启科量子开发者官方号

百川智能与鹏城实验室开展合作,突破国产算力大模型长窗口技术_生成式 AI_百川智能_InfoQ精选文章