写点什么

Meta AI 全面开放 1750 亿参数大模型:首次毫无保留公开训练代码及使用代码、日志记录

  • 2022-05-05
  • 本文字数:1995 字

    阅读完需:约 7 分钟

Meta AI全面开放1750亿参数大模型:首次毫无保留公开训练代码及使用代码、日志记录

Meta AI 的 OPT-175B 具有 1750 亿个参数,与 OpenAI 的 GPT-3 等商业语言模型相当。近日,Meta AI 宣布将全面开放 OPT-175B。这意味着大规模语言模型迎来大众化。


过去几年以来,大规模语言模型,也就是那些包含 1000 亿以上参数的自然语言处理(NLP)系统,已经改变了整个 NLP 乃至 AI 研究风向。这些模型接受过海量文本素材的训练,已经在生成创意文本、解决基础数学试题、回答阅读理解问题等方面表现出了令人惊讶的能力。


虽然此前公众也可以通过付费 API 与一部分此类模型进行交互,但其完整的研究与访问权限仍只属于少数资源丰富的实验室。这种访问层面的限制不仅大大阻碍了研究人员对这类大型语言模型及其原理的理解,更拉高了提升模型稳健性、缓解偏见/“有毒”观念等已知问题的参与门槛。



根据 Meta AI 做出的开放科学承诺,我们决意共享 Open Pretrained Transformer (OPT-175B)模型。这是一套包含 1750 亿个参数,由公开数据集训练而成的语言模型,希望帮助更多社群参与并理解这项基础性技术成果。


这也是大规模语言技术系统在历史上第一次毫无保留,把预训练模型、训练代码以及使用代码全部展现在公众面前。


为了保持模型完整性并防止滥用,我们将以非商业许可的形式发布这套模型,希望 OPT-175B 仅被用于研究用途具体来讲,这套模型的访问权限将针对学术研究者全面开放,包括隶属于政府、民间社会和学界组织的人员,以及全球各地的工业研究实验室。


我们坚信,由学界研究者、民间社会、政策制定者及产业界共同构成的整个 AI 社区,一直在努力打造负责任的 AI 解决方案。这一基本思路也应成为大型语言模型的指导方针,进而约束以大规模语言模型为中心的更多下游具体应用。


AI 社区成员有必要访问这些模型,开展可重复研究并共同推动整个领域向前发展。随着 OPT-175B 与小规模基准的发布,我们希望能为这一技术伦理难题的解决引入新的多样性思路。

以负责任的态度发布 OPT-175B


遵循 Partnership on AI 为研究人员制定的发布指南,再结合 NIST 在 2022 年 3 月提出的治理指南概述(第 3.4 节),我们决定发布 OPT-175B 开发过程中的所有笔记和记录,包括详尽介绍日常训练过程的完整日志


如此一来,其他研究者就能轻松在我们的工作基础之上再接再厉,做出意义深远的其他延拓。此外,结合这些细节,大家还能理解 OPT-175B 模型的整体训练计算量;以及在底层基础设施或训练过程出现大规模稳定性波动时,需要投入多少人力进行调整。


除了 OPT-175B 本体之外,我们还发布了可在 16 个英伟达 V100 GPU 上运行的模型训练和部署代码库,希望能提高这些模型的可访问性。为了帮助大家做好研究,我们还针对可量化的潜在危害提出一套通用性的衡量指标。


此外,我们也全面发布一套体量更小的基准模型,与 OPT-175B 本体采用相同的训练数据集和参数设置,可供研究人员单独探索模型规模差异造成的实际影响。


这些小规模模型的参数量分为 1.25 亿、3.5 亿、13 亿、27 亿、67 亿、130 亿和 300 亿几种,后续我们还将发布 660 亿参数的版本。

负责任地计算


AI 研究的最新发展消耗掉了大量算力。虽然行业实验室已经在报告各类模型产生的碳足迹,但其中大多并不包括实验研发阶段的相关计算成本。在某些情况下,初期阶段耗费的资源可能要比训练最终模型还要高出一个数量级。


我们在开发 OPT-175B 时也充分考虑到能源效率因素,最终以仅为 GPT-3 七分之一的碳排放量成功完成了模型训练。我们在 Megatron-LM 中将 Meta 的开源全分片数据并行(FSDP)API 与英伟达的张量并行抽象结合起来,共同实现了这一壮举。


我们在英伟达 80 GB 版本的 A100 GPU 上实现了约 147 TFLOP/s/GPU 的超高利用率,这一结果比英伟达研究人员在同等硬件上公布的数据高出约 17%。


通过代码库,我们共享了这些宝贵的 175B 模型训练基准,希望能帮助更多研究人员减少整体碳足迹,也希望能以这种统一的标准衡量 AI 领域的最新成果与前沿进展。

通过开放合作推动研究发展


为了推进 AI 研究工作,整个学界必须与前沿模型开展广泛合作,在快速探索模型潜力的同时发现其中的“软肋”。与我们之前的开放科学计划(例如图像相似性挑战赛、Deepfake 检测挑战赛和 Hateful Mems 挑战赛)一样,Meta AI 认为只有这样的跨组织合作,才能帮助我们一步步走近真正负责任的 AI 开发方法。


尽管大型语言模型领域带来了一系列令人兴奋的发展成果,但这些模型本身的局限性和风险因素仍未得到有效把握。如果无法直接访问这些模型,研究人员也很难为其规划出可行的伤害检测与缓解策略。换言之,检测与缓解能力将完全被那些拥有足够财力的研究者所掌握。


我们希望 OPT-175B 的开放能为大型语言模型的前沿探索引入更多观点,帮助社区集群设计出负责任的发布策略,最终给大规模语言模型的开发带来前所未有的透明度与开放性。


点击此处可访问开源代码与小型预训练模型;

点击此处申请访问 OPT-175B 模型;

点击此处可阅读论文原文。


各预训练模型均遵循OPT-175B许可协议


原文链接:


https://ai.facebook.com/blog/democratizing-access-to-large-scale-language-models-with-opt-175b/

2022-05-05 14:219102
用户头像
刘燕 InfoQ高级技术编辑

发布了 1112 篇内容, 共 544.1 次阅读, 收获喜欢 1978 次。

关注

评论

发布
暂无评论
发现更多内容

2023最新大数据传输慢的真正原因与对应解决方案

镭速

大文件传输 大数据传输

点对点传输技术在智能交通中的应用:实现车辆间的实时通信

镭速

大文件传输 点对点文件传输

孙文龙理事长参加第二十五届中国国际软件博览会开幕式并发表主题演讲

开放原子开源基金会

软件测试/测试开发丨Web自动化测试 关键数据记录

测试人

Python 程序员 软件测试 自动化测试 测试开发

Little Snitch 5 小飞贼工具 +Little Snitch 5 激活密钥

胖墩儿不胖y

防火墙 Mac软件 防火墙软件

小灯塔系列-中小企业数字化转型系列研究——固定资产管理测评报告

向量智库

row_number函数的不稳定性

华为云开发者联盟

数据库 后端 华为云 华为云开发者联盟 企业号9月PK榜

关于低代码这件事儿

互联网工科生

低代码 应用开发 可视化开发

illustrator 2023 beta版ai功能 Illustrator 2023 mac(Ai2023矢量设计软件)v27.8.1中文激活版

mac

Illustrator 苹果mac Windows软件 矢量图形编辑软件 Illustrator 2023

愿意折腾、相信未来的年青人,都在2050

赵新龙

TGO鲲鹏会 2050

软件测试 | AI革命性技术未来的领域

测吧(北京)科技有限公司

测试

人工智能对游戏世界的革新

测吧(北京)科技有限公司

测试

安全攻防丨反序列化漏洞的实操演练

华为云开发者联盟

安全 开发 华为云 华为云开发者联盟 企业号9月PK榜

汇聚开源力量,赋能软件发展,开放原子开源基金会携开源展区亮相软博会,开源展区现场引关注!

开放原子开源基金会

开源

Wasm软件生态系统安全分析

OpenHarmony开发者

OpenHarmony

网线,是选圆线还是扁线?什么材质优选?

小齐写代码

软件测试/测试开发丨Selenium Web自动化测试 高级控件交互方法

测试人

Python 程序员 软件测试 自动化测试 selenium

校源行丨2023开放原子校源行开源大使名单

开放原子开源基金会

AI如何改变设觉特效

测吧(北京)科技有限公司

测试

如何调试 C# Emit 生成的动态代码?

互联网工科生

C# Emit

RabbitMQ 如何实现延迟队列?

王磊

Java Java面试题

mac上好用的解压缩软件 iFastZip - Extract RAR&ZIP&7Z中文版

mac大玩家j

Mac软件 解压缩软件 解压缩工具

软件测试/测试开发丨Python 数据结构与算法

测试人

Python 程序员 软件测试 测试开发

总投入超5000万元的开源大赛火热报名中

开放原子开源基金会

开源

人工智能在新能源和环境领域的角色

测吧(北京)科技有限公司

测试

八个针对高级职位的高级 JavaScript 面试题

树上有只程序猿

JavaScript 程序员 面试

一文读懂GPU的十个重要参数

Finovy Cloud

gpu GPU服务器 GPU渲染

什么样的家庭条件,现在还招人?

赵新龙

TGO鲲鹏会 招聘

打造次世代分析型数据库(一):CDW PG全面升级

腾讯云大数据

数据库

墨迹天气黄耀海:深耕气象技术并与服务场景深度融合,AI全面激活气象服务的跃迁

Geek_2d6073

Meta AI全面开放1750亿参数大模型:首次毫无保留公开训练代码及使用代码、日志记录_AI&大模型_Meta AI 团队_InfoQ精选文章