写点什么

Meta AI 全面开放 1750 亿参数大模型:首次毫无保留公开训练代码及使用代码、日志记录

  • 2022-05-05
  • 本文字数:1995 字

    阅读完需:约 7 分钟

Meta AI全面开放1750亿参数大模型:首次毫无保留公开训练代码及使用代码、日志记录

Meta AI 的 OPT-175B 具有 1750 亿个参数,与 OpenAI 的 GPT-3 等商业语言模型相当。近日,Meta AI 宣布将全面开放 OPT-175B。这意味着大规模语言模型迎来大众化。


过去几年以来,大规模语言模型,也就是那些包含 1000 亿以上参数的自然语言处理(NLP)系统,已经改变了整个 NLP 乃至 AI 研究风向。这些模型接受过海量文本素材的训练,已经在生成创意文本、解决基础数学试题、回答阅读理解问题等方面表现出了令人惊讶的能力。


虽然此前公众也可以通过付费 API 与一部分此类模型进行交互,但其完整的研究与访问权限仍只属于少数资源丰富的实验室。这种访问层面的限制不仅大大阻碍了研究人员对这类大型语言模型及其原理的理解,更拉高了提升模型稳健性、缓解偏见/“有毒”观念等已知问题的参与门槛。



根据 Meta AI 做出的开放科学承诺,我们决意共享 Open Pretrained Transformer (OPT-175B)模型。这是一套包含 1750 亿个参数,由公开数据集训练而成的语言模型,希望帮助更多社群参与并理解这项基础性技术成果。


这也是大规模语言技术系统在历史上第一次毫无保留,把预训练模型、训练代码以及使用代码全部展现在公众面前。


为了保持模型完整性并防止滥用,我们将以非商业许可的形式发布这套模型,希望 OPT-175B 仅被用于研究用途具体来讲,这套模型的访问权限将针对学术研究者全面开放,包括隶属于政府、民间社会和学界组织的人员,以及全球各地的工业研究实验室。


我们坚信,由学界研究者、民间社会、政策制定者及产业界共同构成的整个 AI 社区,一直在努力打造负责任的 AI 解决方案。这一基本思路也应成为大型语言模型的指导方针,进而约束以大规模语言模型为中心的更多下游具体应用。


AI 社区成员有必要访问这些模型,开展可重复研究并共同推动整个领域向前发展。随着 OPT-175B 与小规模基准的发布,我们希望能为这一技术伦理难题的解决引入新的多样性思路。

以负责任的态度发布 OPT-175B


遵循 Partnership on AI 为研究人员制定的发布指南,再结合 NIST 在 2022 年 3 月提出的治理指南概述(第 3.4 节),我们决定发布 OPT-175B 开发过程中的所有笔记和记录,包括详尽介绍日常训练过程的完整日志


如此一来,其他研究者就能轻松在我们的工作基础之上再接再厉,做出意义深远的其他延拓。此外,结合这些细节,大家还能理解 OPT-175B 模型的整体训练计算量;以及在底层基础设施或训练过程出现大规模稳定性波动时,需要投入多少人力进行调整。


除了 OPT-175B 本体之外,我们还发布了可在 16 个英伟达 V100 GPU 上运行的模型训练和部署代码库,希望能提高这些模型的可访问性。为了帮助大家做好研究,我们还针对可量化的潜在危害提出一套通用性的衡量指标。


此外,我们也全面发布一套体量更小的基准模型,与 OPT-175B 本体采用相同的训练数据集和参数设置,可供研究人员单独探索模型规模差异造成的实际影响。


这些小规模模型的参数量分为 1.25 亿、3.5 亿、13 亿、27 亿、67 亿、130 亿和 300 亿几种,后续我们还将发布 660 亿参数的版本。

负责任地计算


AI 研究的最新发展消耗掉了大量算力。虽然行业实验室已经在报告各类模型产生的碳足迹,但其中大多并不包括实验研发阶段的相关计算成本。在某些情况下,初期阶段耗费的资源可能要比训练最终模型还要高出一个数量级。


我们在开发 OPT-175B 时也充分考虑到能源效率因素,最终以仅为 GPT-3 七分之一的碳排放量成功完成了模型训练。我们在 Megatron-LM 中将 Meta 的开源全分片数据并行(FSDP)API 与英伟达的张量并行抽象结合起来,共同实现了这一壮举。


我们在英伟达 80 GB 版本的 A100 GPU 上实现了约 147 TFLOP/s/GPU 的超高利用率,这一结果比英伟达研究人员在同等硬件上公布的数据高出约 17%。


通过代码库,我们共享了这些宝贵的 175B 模型训练基准,希望能帮助更多研究人员减少整体碳足迹,也希望能以这种统一的标准衡量 AI 领域的最新成果与前沿进展。

通过开放合作推动研究发展


为了推进 AI 研究工作,整个学界必须与前沿模型开展广泛合作,在快速探索模型潜力的同时发现其中的“软肋”。与我们之前的开放科学计划(例如图像相似性挑战赛、Deepfake 检测挑战赛和 Hateful Mems 挑战赛)一样,Meta AI 认为只有这样的跨组织合作,才能帮助我们一步步走近真正负责任的 AI 开发方法。


尽管大型语言模型领域带来了一系列令人兴奋的发展成果,但这些模型本身的局限性和风险因素仍未得到有效把握。如果无法直接访问这些模型,研究人员也很难为其规划出可行的伤害检测与缓解策略。换言之,检测与缓解能力将完全被那些拥有足够财力的研究者所掌握。


我们希望 OPT-175B 的开放能为大型语言模型的前沿探索引入更多观点,帮助社区集群设计出负责任的发布策略,最终给大规模语言模型的开发带来前所未有的透明度与开放性。


点击此处可访问开源代码与小型预训练模型;

点击此处申请访问 OPT-175B 模型;

点击此处可阅读论文原文。


各预训练模型均遵循OPT-175B许可协议


原文链接:


https://ai.facebook.com/blog/democratizing-access-to-large-scale-language-models-with-opt-175b/

2022-05-05 14:219425
用户头像
刘燕 InfoQ高级技术编辑

发布了 1112 篇内容, 共 557.0 次阅读, 收获喜欢 1978 次。

关注

评论

发布
暂无评论
发现更多内容

字节跳动的增长密码

池建强

字节跳动 张一鸣

Docker Swarm 踩坑

Steve

Docker Docker Swarm 技术 容器 踩坑

从西游到武侠——确定性与不确定性

伯薇

个人成长 管理 确定性 不确定性

基于RocketMQ实现分布式事务 - 完整示例

清幽之地

Java 分布式事务 RocketMQ 微服务

NVidia Docker介绍

薛磊

Docker

中台之路,从平台到中台的思考与实践(一)

孤岛旭日

架构 中台 企业中台 企业架构

特定系统的Linux的构建

韩超

高手和普通人的差距,不看不知道,一看吓一跳

熊斌

学习

【JAVA】感受下JDK14的空指针提示

遇见

Java jdk jep

redis数据结构介绍-第一部分 SDS,链表,字典

Nick

redis 源码 数据结构 源码分析 算法

Gitlab CI/CD 中的 Cache 机制

Chong

DevOps gitlab cicd

Linux的proc文件系统编程

韩超

开源这件事儿,越来越“声势浩大”了

赵钰莹

Apache GitHub 阿里巴巴 开源 腾讯

人间至味——苦瓜

三只猫

人生 美食 生活

百度主任架构师谭待:打造非职权技术管理机制

TGO鲲鹏会

中台之路,从平台到中台的思考与实践(二)

孤岛旭日

架构 中台 企业中台 企业架构

纯技术改造,技术如何驱动需求,我有话说

一叶而不知秋

项目管理 架构 技术

我使用了哪些生产力工具?

Steve

效率工具 软件 Alfred Notion 推荐

微服务架构深度解析与最佳实践-第一部分

kimmking

微服务 最佳实践 深度解析 高可用

苏宁云商向江旭:是时候让技术成为新司机了!

TGO鲲鹏会

聊聊分心这件事

Jackey

服务降级的常见套路

松花皮蛋me

Java

3000w人民币的学费——我的决策反思

孤岛旭日

数据中台 架构 中台 企业中台 企业架构

NVidia-Docker2 性能优化

薛磊

Docker gpu nvidia container

[KubeFlow] MPI-Operator深度解读

薛磊

Docker gpu kubeflow Kubernetes

程序员通过哪些方式来赚钱?

一尘观世界

程序员 外包 自由职业 副业 赚钱

ELF文件格式

韩超

自动驾驶复苏在2020

陈思

人工智能 自动驾驶

Kylin 实时流处理技术探秘.笔记

迹_Jason

大数据

面试官,不要再问我三次握手和四次挥手

猿人谷

面试 TCP 三次握手 四次挥手

Doris 一种实时多维分析的解决方案

迹_Jason

大数据

Meta AI全面开放1750亿参数大模型:首次毫无保留公开训练代码及使用代码、日志记录_AI&大模型_Meta AI 团队_InfoQ精选文章