写点什么

又一国产大模型来了,超对称联合复旦大学发布 120 亿参数语言模型 BBT-2, 已开源

  • 2023-04-24
    北京
  • 本文字数:1011 字

    阅读完需:约 3 分钟

又一国产大模型来了,超对称联合复旦大学发布120亿参数语言模型BBT-2, 已开源

InfoQ 获悉,近日,超对称联合复旦大学发布并开源 120 亿参数语言模型 BBT-2。

 

2022 年 5 月超对称技术公司发布了大语言模型 Big Bang Transformer【乾元】的第一版 BBT-1,10 亿参数预训练语言模型,在中文金融语料上训练而成。近期,超对称公司再推出 BBT-2,120 亿参数的通用大语言模型,并在 BBT-2 的基础上训出代码,金融,文生图等专业模型。

 

据悉,Big Bang Transformer【乾元】12B 大模型的开发基于英伟达的 DGX 算力,超对称公司主导大模型的预训练,并联合复旦大学知识工场实验室完成指令微调和评测工作。

 

超对称技术公司将发布基于 BBT-2 的系列模型(模型 Index 见于https://bbt.ssymmetry.com

 

  • BBT-2-12B-Text:120 亿参数的中文基础模型

  • BBT-2.5-13B-Text: 130 亿参数的中文+英文双语基础模型

  • BBT-2-12B-TC-001-SFT  经过指令微调的代码模型,可以进行对话

  • BBT-2-12B-TF-001 在 120 亿模型上训练的金融模型,用于解决金融领域任务

  • BBT-2-12B-Fig:文生图模型

  • BBT-2-12B-Science 科学论文模型

 

另外,通过与 UCloud 在开源方面的合作,超对称还将 3 个大模型开源到官网、Github 和 UCloud,后续用户可直接在 UCloud 官方平台通过 GPU 云主机的行业镜像或算力平台直接开箱使用这些模型:

 

  • BBT-1-0.2B:2 亿参数金融模型,包括三个不同预训练方式进行训练的模型, 训了 600 亿 Tokens:

 

(1)BBT-1-0.2B-001:2 亿参数,金融模型,T5 Decoder+Encoder 架构 

(2)BBT-1-0.2B-002: 2 亿参数,金融模型,T5+GPT 

(3)BBT-1-0.2B-003: 2 亿参数,金融模型,T5+UL2

 

  • BBT-1-1B:10 亿参数金融模型,T5 Encoder+Decoder 架构,使用金融中文语料库 1000 亿 tokens 进行预训练,包含社交媒体,财经新闻,券商研报,公司公告财报等数据

 

  • BBT-2-12B-Text:120 亿参数基础模型,GPT Decoder-Only 架构,未经指令微调,完成 2000 亿 token 预训练,模型性能还有较大提升空间,开发者可在通用模型上继续训练或进行下游任务微调

 

  • BBT-2.5-13B-Text: 130 亿参数基础模型,GPT Decoder-Only 架构,未经指令微调,完成 2000 亿中文+英文 tokens 预训

 

开源下载链接:

 

模型:

 

 

语料库,开源了接近 1000 亿 tokens 的预训练语料,包括通用语料和金融语料,详见:

 

 

  • 评测数据集,开源了 8 个中文金融大模型的评测数据集,详见:

https://bbt.ssymmetry.com/evaluation.html

 

论文链接:

 

 

2023-04-24 10:004398
用户头像
刘燕 InfoQ高级技术编辑

发布了 1112 篇内容, 共 531.6 次阅读, 收获喜欢 1975 次。

关注

评论

发布
暂无评论
发现更多内容

week2-作业1

Mr_No爱学习

第六周作业总结

Geek_ce484f

极客大学架构师训练营

week06作业

龙卷风

架构师一期

学习笔记:架构师训练营-第六周

四夕晖

LeetCode题解:90. 子集 II,回溯+哈希表去重,JavaScript,详细注释

Lee Chen

算法 大前端 LeetCode

极客时间 - 架构训练营 第一周总结 - 设计原则

极客时间架构 1 期:第 6 周 技术选型(二) - 命题作业

Null

2周 总结

水浴清风

周练习 6

何毅曦

Week2 框架设计

贺志鹏

极客大学架构师训练营

第六周作业1

Yangjing

极客大学架构师训练营

Architecture Phase1 Week6:HomeWork

phylony-lu

极客大学架构师训练营

架构师训练营第六周作业

四夕晖

架构师训练营第二期 Week 2 作业

bigxiang

极客大学架构师训练营

第六周作业2

Yangjing

极客大学架构师训练营

CAP原理简述及应用

博古通今小虾米

CAP

思考 - 从传统雪崩到K8S

东风微鸣

k8s

架构师训练营第六周课程笔记及心得

Airs

架构师训练营第六周学习总结

Gosling

极客大学架构师训练营

学习总结 -week2

Mr_No爱学习

2020.10.26-2020.11.01 学习总结

icydolphin

极客大学架构师训练营

第六周作业

Geek_ce484f

极客大学架构师训练营

【第六周】课后作业

云龙

极客时间架构 1 期:第6周 技术选型(二) - 学习总结

Null

架构师 01 期,第六周课后作业

子文

架构师训练营第六周作业

月殇

极客大学架构师训练营

架构师训练营 Week6 - 课后作业

极客大学架构师训练营

week2-作业

Mr_No爱学习

打工人必会算法—快速幂算法讲解

bigsai

Week_06 总结+作业

golangboy

极客大学架构师训练营

技术选型二第六周作业「架构师训练营第 1 期」

天天向善

又一国产大模型来了,超对称联合复旦大学发布120亿参数语言模型BBT-2, 已开源_AI&大模型_刘燕_InfoQ精选文章