写点什么

不要指望下一个像 GPT 这样的大型语言模型会民主化

  • 2022-09-26
    北京
  • 本文字数:2664 字

    阅读完需:约 9 分钟

不要指望下一个像GPT这样的大型语言模型会民主化

5 月初,Meta 公司发布了 Open Pretrained Transformer(OPT-175B),这是一个可以执行各种任务的大型语言模型(LLM)。在过去几年中,大型语言模型已经成为人工智能研究最热门的领域之一。


本文最初发布于 TeckTalks。


OPT-175B是由 OpenAI 的GPT-3引发的 LLM 军备竞赛的最新参与者。GPT-3 是一种具有 1750 亿个参数的深度神经网络。GPT-3 表明,LLM 可以在没有任何额外训练以及只学习几个样本(零样本或小样本学习)的情况下完成许多任务。微软后来将 GPT-3 集成到了它的几个产品中,不仅展示了 LLM 在科学研究上的前景,也展示了其在商业应用上的前景。


让 OPT-175B 与众不同的是 Meta 对“开放性”的承诺,正如模型的名字所暗示的那样。Meta 已经向公众提供了这个模型(以及一些注意事项),它还公布了大量关于训练和开发过程的细节。在 Meta AI 博客上发表的一篇文章中,该公司将 OPT-175B 的发布描述为“大规模语言模型的民主化访问”。


Meta 朝着透明的方向发展值得称赞。然而,大型语言模型的竞争已经达到了无法再民主化的地步。

关于该大型语言模型的几个细节


Meta 发布的 OPT-175B 有一些关键特性,包括预训练的模型以及训练和使用 LLM 所需的代码。对于没有计算资源用于训练模型的组织,预训练模型特别有用(训练神经网络比运行它们消耗的资源更多)。它有助于减少训练大型神经网络所需的计算资源所造成的巨大碳排放量。


GPT-3一样,OPT 也有不同的大小,参数从 1.25 亿到 1750 亿不等(参数越多模型学习能力越强)。在撰写本文时,OPT-30B 以下的所有模型都已提供下载。拥有全部 1750 亿个参数的模型将仅提供给被选中的研究人员和机构(他们需要填写一张申请表)。


根据 Meta AI 博客,“为了保持完整性和防止滥用,我们将在非商业许可下发布我们的模型,专注于研究用例。该模型将授权给学术研究人员,与政府、民间团体和学术机构有关的组织,以及世界各地的行业研究实验室。”


除了模型,Meta 还发布了一份完整的日志,提供了关于该大型语言模型开发和训练过程的详细的技术时间线。通常,发表的论文只包含最终模型的信息。Meta 表示,该日志提供了一些有价值的信息,包括“用于训练 OPT-175B 的计算资源的数量,以及当底层基础设施或训练过程本身因为规模太大而变得不稳定时所需的人力开销。”

与 GPT-3 比较


Meta 公司在其博文中指出,大型语言模型大多是通过“付费 API”访问的,对 LLM 的限制性访问“限制了研究人员了解这些大型语言模型如何工作以及为何有效的能力,妨碍了他们提高模型鲁棒性以及缓解偏见和数据中毒等已知的问题”。


这对于 OpenAI(以及微软的独家 GPT-3 许可)无疑是一记重击,后者将 GPT-3 作为黑盒 API 服务发布,而不是将其模型权重和源代码公开。OpenAI 没有公开 GPT-3 的原因之一是控制有害应用程序的滥用和开发。


Meta 相信,把模型提供给更广泛的受众,他们将可以更好地研究和预防它们可能造成的任何伤害。


Meta 是这样描述这项工作的:“我们希望,OPT-175B 将为大型语言模型创建前沿带来更多的声音,帮助社区共同设计负责任的发布策略,并为该领域大型语言模型的开发增加前所未有的透明度和开放性。”

大型语言模型的成本


然而,值得注意的是,“透明和开放”并不等同于“民主化大型语言模型”。训练、配置和运行大型语言模型的成本仍然很高,而且未来可能还会增长。


根据 Meta 的博文,模型的研究人员已经大幅降低了训练大型语言模型的成本。该公司表示,这个模型的碳排放量已减少到 GPT-3 的七分之一。据我之前采访过的专家估计,GPT-3 的训练成本高达 2760 万美元。


这意味着,OPT-175B 的训练成本仍将高达数百万美元。幸运的是,预训练的模型可以避免模型训练过程,并且 Meta 表示,他们将提供“只使用 16 块 NVIDIA V100 GPU”就可以完成整个模型训练和部署的代码库。这相当于一台英伟达(Nvidia)DGX-2,成本约为 40 万美元。对于资金紧张的研究实验室或个体研究人员来说,这不是一个小数目。(根据一篇提供了更多 OPT-175B 细节的论文,Meta 使用 992 块 A100 80GB GPU 训练了自己的模型,这款 GPU 明显比 V100 快。)


Meta AI 的日志进一步证实,训练大型语言模型是一项非常复杂的任务。OPT-175B 的时间线上到处都是服务器崩溃、硬件故障和其他需要高级技术人员才能解决的并发症。研究人员还不得不多次重启训练过程,调整超参数,修改损失函数。所有这些都会产生小型实验室无法承担的额外费用。

大型语言模型的未来


语言模型如 OPT 和 GPT 都是基于转换器架构的。转换器的关键特性之一是它们能够大规模地并行处理海量时序数据(如文本)。


近年来,研究人员已经证明,增加转换器模型的层数和参数,可以提高它们在语言任务上的性能。一些研究人员认为,达到更高的智能水平只是一个规模问题。因此,像 Meta AI、DeepMind(由 Alphabet 拥有)和 OpenAI(由微软支持)这样现金充足的研究实验室正在朝着创建越来越大的神经网络前进。


某人的观点文章。我的看法是:现在都是规模问题了!游戏结束了!现在只要让这些模型更大、更安全、计算效率更高、采样更快、记忆更智能、模式更多样、数据更有创新性,无论在线还是离线......1/N https://t.co/UJxSLZGc71

—— Nando de Freitas(@NandoDF)


去年,微软和英伟达创建了一个有 5300 亿个参数的语言模型,名为 Megatron-Turing (MT-NLG)。上个月,谷歌推出了路径语言模型(PaLM)。这是一个有 5400 亿个参数的 LLM。有传言称,OpenAI 将在未来几个月发布 GPT-4。


然而,神经网络越大需要的财政和技术资源也越多。虽然更大的语言模型会带来新的东西(和新的问题),但不可避免地,它们将把权力集中在少数富有的公司手中,使得较小的研究实验室和独立的研究人员更难研究大型语言模型了。


在商业方面,大型科技公司将拥有更大的优势。运行大型语言模型是非常昂贵和具有挑战性的。像谷歌和微软这样的公司有特殊的服务器和处理器,他们能够大规模运行这些模型并从中获利。对于比较小的公司来说,运行自己的 LLM(如 GPT-3)版本开销太大了。正如大多数企业使用云托管服务,而不是构建自己的服务器和数据中心一样,随着大型语言模型变得越来越流行,像 GPT-3 API 这样的开箱即用系统将越来越有吸引力。


这反过来又会使人工智能进一步集中在大型科技公司的手中。越来越多的人工智能研究实验室将不得不与大型科技公司建立合作伙伴关系,以获得资助。而这将使大型科技公司有更多的权力来决定人工智能研究的未来方向(这可能会与他们的经济利益相一致)。这可能要以那些短期内无法产生投资回报的研究领域为代价。


最后,当我们庆祝 Meta 为 LLM 带来透明度的时候,请不要忘记,大型语言模型本质上就是不民主的,而是有利于推广它们的公司。


英文原文:Can large language models be democratized?

2022-09-26 08:204587

评论

发布
暂无评论
发现更多内容

MySQL 中 blob 和 text 数据类型详解

Simon

MySQL

Linux之more命令

入门小站

Linux

前沿干货!深度揭秘TDSQL新敏态引擎Online DDL技术原理

腾讯云数据库

tdsql 国产数据库

解析Redis操作五大数据类型常用命令

华为云开发者联盟

数据库 redis string 数据类型 getset

盘点2021 | 技术十年-记录十年技术经历

高性能架构探索

技术人 工作经历 经历分享 盘点2021

又拿奖了!腾讯云原生数据库TDSQL-C斩获2021PostgreSQL中国最佳数据库产品奖

腾讯云数据库

tdsql 国产数据库

喜提双奖 | 旺链科技彰显综合硬实力!

旺链科技

区块链 产业区块链 供应链

Apache APISIX 社区双周报 | 功能亮点更新进行中

API7.ai 技术团队

云原生 后端 开源社区 api 网关 Apache APISIX

DM 分库分表 DDL “悲观协调” 模式介绍丨TiDB 工具分享

PingCAP

Go编译原理系列2(词法分析&语法分析基础)

书旅

Go 后端 编译原理

内核干货不容错过,龙蜥内核的Load Averages剖析直播回顾上线了

OpenAnolis小助手

Linux Kenel 内核 龙蜥社区

(转)前端开发之MySQL分区表中的性能BUG

@零度

MySQL 前端

轻松驾驭EB级千万QPS集群,TDSQL新敏态引擎元数据管控与集群调度的演进之路

腾讯云数据库

tdsql 国产数据库

重装上阵——Graviton2提升Aurora性价比

亚马逊云科技 (Amazon Web Services)

Data

「山东城商行联盟」数据库准实时数据采集系统上线,DataPipeline助力城市商业银行加快数字化转型

DataPipeline数见科技

数据库 中间件 数据同步 数据融合 数据管理

​使用 Amazon Neptune 通过数据仓库构建知识图谱,借此补充商务智能体系

亚马逊云科技 (Amazon Web Services)

Data

JAVA 开发常用工具汇总

编程江湖

java编程

利用极狐GitLab DevSecOps 功能检测 log4j 的多种方式

极狐GitLab

发布你的开源软件到 Ubuntu PPA

hedzr

#Ubuntu Debian packaging ppa

鲲鹏HCIA认证之初识鲲鹏

桥哥技术之路

鲲鹏

孩子,你为什么要上学?

Tiger

28天写作

腾讯云原生数据库TDSQL-C斩获2021 PostgreSQL中国最佳数据库产品奖

科技热闻

web技术分享| 白板SDK的几种图形检测算法

anyRTC开发者

前端 音视频 白板 web技术分享 图形检测算法

一文带你梳理Clang编译步骤及命令

华为云开发者联盟

编译 LLVM Clang编译 Clang 编译命令

java开发之SSM开发框架

@零度

Java ssm

盘点 2021|不忘初心,扬风起航

小鲍侃java

盘点2021

化繁为简--百度智能小程序主数据架构实战总结

百度Geek说

小程序 百度 架构 后端 数据

升级过log4j,却还没搞懂log4j漏洞的本质?

华为云开发者联盟

Java log4j 漏洞 JNDI rmi

如何将Amazon RDS与Amazon Aurora数据库迁移至Graviton2?

亚马逊云科技 (Amazon Web Services)

Data

蓝格赛(中国)用TDengine落地聚合查询场景,效果如何?

TDengine

数据库 tdengine 后端

DotNet工具箱之性能监控组件——CLRStats

为自己带盐

dotnet 28天写作 12月日更

不要指望下一个像GPT这样的大型语言模型会民主化_AI&大模型_Ben Dickson_InfoQ精选文章