InfoQ 获悉,近日,超对称联合复旦大学发布并开源 120 亿参数语言模型 BBT-2。
2022 年 5 月超对称技术公司发布了大语言模型 Big Bang Transformer【乾元】的第一版 BBT-1,10 亿参数预训练语言模型,在中文金融语料上训练而成。近期,超对称公司再推出 BBT-2,120 亿参数的通用大语言模型,并在 BBT-2 的基础上训出代码,金融,文生图等专业模型。
据悉,Big Bang Transformer【乾元】12B 大模型的开发基于英伟达的 DGX 算力,超对称公司主导大模型的预训练,并联合复旦大学知识工场实验室完成指令微调和评测工作。
超对称技术公司将发布基于 BBT-2 的系列模型(模型 Index 见于https://bbt.ssymmetry.com)
BBT-2-12B-Text:120 亿参数的中文基础模型
BBT-2.5-13B-Text: 130 亿参数的中文+英文双语基础模型
BBT-2-12B-TC-001-SFT 经过指令微调的代码模型,可以进行对话
BBT-2-12B-TF-001 在 120 亿模型上训练的金融模型,用于解决金融领域任务
BBT-2-12B-Fig:文生图模型
BBT-2-12B-Science 科学论文模型
另外,通过与 UCloud 在开源方面的合作,超对称还将 3 个大模型开源到官网、Github 和 UCloud,后续用户可直接在 UCloud 官方平台通过 GPU 云主机的行业镜像或算力平台直接开箱使用这些模型:
BBT-1-0.2B:2 亿参数金融模型,包括三个不同预训练方式进行训练的模型, 训了 600 亿 Tokens:
(1)BBT-1-0.2B-001:2 亿参数,金融模型,T5 Decoder+Encoder 架构
(2)BBT-1-0.2B-002: 2 亿参数,金融模型,T5+GPT
(3)BBT-1-0.2B-003: 2 亿参数,金融模型,T5+UL2
BBT-1-1B:10 亿参数金融模型,T5 Encoder+Decoder 架构,使用金融中文语料库 1000 亿 tokens 进行预训练,包含社交媒体,财经新闻,券商研报,公司公告财报等数据
BBT-2-12B-Text:120 亿参数基础模型,GPT Decoder-Only 架构,未经指令微调,完成 2000 亿 token 预训练,模型性能还有较大提升空间,开发者可在通用模型上继续训练或进行下游任务微调
BBT-2.5-13B-Text: 130 亿参数基础模型,GPT Decoder-Only 架构,未经指令微调,完成 2000 亿中文+英文 tokens 预训
开源下载链接:
模型:
语料库,开源了接近 1000 亿 tokens 的预训练语料,包括通用语料和金融语料,详见:
评测数据集,开源了 8 个中文金融大模型的评测数据集,详见:
https://bbt.ssymmetry.com/evaluation.html
论文链接:
评论