写点什么

又一国产大模型来了,超对称联合复旦大学发布 120 亿参数语言模型 BBT-2, 已开源

  • 2023-04-24
    北京
  • 本文字数:1011 字

    阅读完需:约 3 分钟

又一国产大模型来了,超对称联合复旦大学发布120亿参数语言模型BBT-2, 已开源

InfoQ 获悉,近日,超对称联合复旦大学发布并开源 120 亿参数语言模型 BBT-2。

 

2022 年 5 月超对称技术公司发布了大语言模型 Big Bang Transformer【乾元】的第一版 BBT-1,10 亿参数预训练语言模型,在中文金融语料上训练而成。近期,超对称公司再推出 BBT-2,120 亿参数的通用大语言模型,并在 BBT-2 的基础上训出代码,金融,文生图等专业模型。

 

据悉,Big Bang Transformer【乾元】12B 大模型的开发基于英伟达的 DGX 算力,超对称公司主导大模型的预训练,并联合复旦大学知识工场实验室完成指令微调和评测工作。

 

超对称技术公司将发布基于 BBT-2 的系列模型(模型 Index 见于https://bbt.ssymmetry.com

 

  • BBT-2-12B-Text:120 亿参数的中文基础模型

  • BBT-2.5-13B-Text: 130 亿参数的中文+英文双语基础模型

  • BBT-2-12B-TC-001-SFT  经过指令微调的代码模型,可以进行对话

  • BBT-2-12B-TF-001 在 120 亿模型上训练的金融模型,用于解决金融领域任务

  • BBT-2-12B-Fig:文生图模型

  • BBT-2-12B-Science 科学论文模型

 

另外,通过与 UCloud 在开源方面的合作,超对称还将 3 个大模型开源到官网、Github 和 UCloud,后续用户可直接在 UCloud 官方平台通过 GPU 云主机的行业镜像或算力平台直接开箱使用这些模型:

 

  • BBT-1-0.2B:2 亿参数金融模型,包括三个不同预训练方式进行训练的模型, 训了 600 亿 Tokens:

 

(1)BBT-1-0.2B-001:2 亿参数,金融模型,T5 Decoder+Encoder 架构 

(2)BBT-1-0.2B-002: 2 亿参数,金融模型,T5+GPT 

(3)BBT-1-0.2B-003: 2 亿参数,金融模型,T5+UL2

 

  • BBT-1-1B:10 亿参数金融模型,T5 Encoder+Decoder 架构,使用金融中文语料库 1000 亿 tokens 进行预训练,包含社交媒体,财经新闻,券商研报,公司公告财报等数据

 

  • BBT-2-12B-Text:120 亿参数基础模型,GPT Decoder-Only 架构,未经指令微调,完成 2000 亿 token 预训练,模型性能还有较大提升空间,开发者可在通用模型上继续训练或进行下游任务微调

 

  • BBT-2.5-13B-Text: 130 亿参数基础模型,GPT Decoder-Only 架构,未经指令微调,完成 2000 亿中文+英文 tokens 预训

 

开源下载链接:

 

模型:

 

 

语料库,开源了接近 1000 亿 tokens 的预训练语料,包括通用语料和金融语料,详见:

 

 

  • 评测数据集,开源了 8 个中文金融大模型的评测数据集,详见:

https://bbt.ssymmetry.com/evaluation.html

 

论文链接:

 

 

2023-04-24 10:004387
用户头像
刘燕 InfoQ高级技术编辑

发布了 1112 篇内容, 共 528.0 次阅读, 收获喜欢 1975 次。

关注

评论

发布
暂无评论
发现更多内容

【MindStudio训练营第一季】MindStudio 专家系统随笔

Angel Wings

mindspore MindStudio

从今天起真正释放创造力 | Werner Vogels 在 re:Invent 2022带来多项开发者福音

亚马逊云科技 (Amazon Web Services)

亚马逊云科技

连阿里P8都赞不绝口的“分布式架构原理设计笔记”到底有多牛

小小怪下士

Java 程序员 分布式 架构设计

Log4Shell 漏洞披露已近一年,它对我们还有影响吗?

SEAL安全

Log4Shell 12 月 PK 榜

隐藏复杂、抽象概念,「技术无感化」 ——The Future of Database2022 | 黄东旭新番

B Impact

2022年第三季度汽车品牌智能网联竞争力指数(ICVCI)分析

易观分析

汽车 易观分析 智能网联

HummerRisk 入门3:开发手册

HummerCloud

云安全 云原生安全 12月月更

2023来袭,分享500道我收集的Java架构面试题

钟奕礼

Java 程序员 java面试 java编程

手写一个react,看透react运行机制

goClient1992

React

前端培训学习后程序员有什么好的方向吗

小谷哥

【MindStudio训练营第一季】MindStudio 可视化AI应用开发体验随笔

Angel Wings

MindStudio

为什么我们不支持手工上传镜像

Jianmu

Docker 容器 镜像

信息安全等级保护的5个级别分别是什么?最高级别是哪个?

行云管家

等保 等级保护

15年磨一剑,亚马逊云科技数据产品掌门人 Swami 揭秘云原生数据战略的三大关键要素

亚马逊云科技 (Amazon Web Services)

亚马逊云科技

react源码分析:组件的创建和更新

flyzz177

React

36kr企服点评启发:“信任的基础是真实,只要做到真实,一定能够建立起双向信任”

B Impact

手机银行APP评测系列:天津银行持续优化手机银行用户体验,但仍需加强细节提升

易观分析

手机银行 用户

参加前端培训之后能做什么?

小谷哥

大数据培训程序员就业前景如何

小谷哥

【MindStudio训练营第一季】MindStudio 高精度对比随笔

Angel Wings

MindStudio

双机互备是什么意思?双机互备就是双机热备吗?

行云管家

双机热备 双机互备

带你实现react源码的核心功能

goClient1992

React

大数据培训学习的技术基础有哪些

小谷哥

金融信创正当时!看这家银行如何实现数据仓库与营销平台国产替换?

索信达控股

数据库 银行 数据库迁移 智能营销

面试官:你先回去等通知吧!这个Java岗位我还有机会吗?

钟奕礼

Java java面试 java编程 程序员、

盘点 | 4类爆款小游戏开发引擎

FinFish

游戏引擎 小游戏 小游戏开发 微信小游戏 游戏开发引擎

【MindStudio训练营第一季】MindStudio Profiling随笔

Angel Wings

华为 AI 调优 MindStudio Ascend

可观测性神器之Micrometer

宋小生

监控 可观测性 micrometer

觅健牵手博鳌医院战略合作:即时优享全球肿瘤创新治疗方案

联营汇聚

一个月面试了3家大厂Java岗,我发现这几个突破点

钟奕礼

Java 程序员 java面试 java编程

深入React源码揭开渲染更新流程的面纱

goClient1992

React

又一国产大模型来了,超对称联合复旦大学发布120亿参数语言模型BBT-2, 已开源_AI&大模型_刘燕_InfoQ精选文章