5 月初,Meta 公司发布了 Open Pretrained Transformer(OPT-175B),这是一个可以执行各种任务的大型语言模型(LLM)。在过去几年中,大型语言模型已经成为人工智能研究最热门的领域之一。
本文最初发布于 TeckTalks。
OPT-175B是由 OpenAI 的GPT-3引发的 LLM 军备竞赛的最新参与者。GPT-3 是一种具有 1750 亿个参数的深度神经网络。GPT-3 表明,LLM 可以在没有任何额外训练以及只学习几个样本(零样本或小样本学习)的情况下完成许多任务。微软后来将 GPT-3 集成到了它的几个产品中,不仅展示了 LLM 在科学研究上的前景,也展示了其在商业应用上的前景。
让 OPT-175B 与众不同的是 Meta 对“开放性”的承诺,正如模型的名字所暗示的那样。Meta 已经向公众提供了这个模型(以及一些注意事项),它还公布了大量关于训练和开发过程的细节。在 Meta AI 博客上发表的一篇文章中,该公司将 OPT-175B 的发布描述为“大规模语言模型的民主化访问”。
Meta 朝着透明的方向发展值得称赞。然而,大型语言模型的竞争已经达到了无法再民主化的地步。
关于该大型语言模型的几个细节
Meta 发布的 OPT-175B 有一些关键特性,包括预训练的模型以及训练和使用 LLM 所需的代码。对于没有计算资源用于训练模型的组织,预训练模型特别有用(训练神经网络比运行它们消耗的资源更多)。它有助于减少训练大型神经网络所需的计算资源所造成的巨大碳排放量。
与GPT-3一样,OPT 也有不同的大小,参数从 1.25 亿到 1750 亿不等(参数越多模型学习能力越强)。在撰写本文时,OPT-30B 以下的所有模型都已提供下载。拥有全部 1750 亿个参数的模型将仅提供给被选中的研究人员和机构(他们需要填写一张申请表)。
根据 Meta AI 博客,“为了保持完整性和防止滥用,我们将在非商业许可下发布我们的模型,专注于研究用例。该模型将授权给学术研究人员,与政府、民间团体和学术机构有关的组织,以及世界各地的行业研究实验室。”
除了模型,Meta 还发布了一份完整的日志,提供了关于该大型语言模型开发和训练过程的详细的技术时间线。通常,发表的论文只包含最终模型的信息。Meta 表示,该日志提供了一些有价值的信息,包括“用于训练 OPT-175B 的计算资源的数量,以及当底层基础设施或训练过程本身因为规模太大而变得不稳定时所需的人力开销。”
与 GPT-3 比较
Meta 公司在其博文中指出,大型语言模型大多是通过“付费 API”访问的,对 LLM 的限制性访问“限制了研究人员了解这些大型语言模型如何工作以及为何有效的能力,妨碍了他们提高模型鲁棒性以及缓解偏见和数据中毒等已知的问题”。
这对于 OpenAI(以及微软的独家 GPT-3 许可)无疑是一记重击,后者将 GPT-3 作为黑盒 API 服务发布,而不是将其模型权重和源代码公开。OpenAI 没有公开 GPT-3 的原因之一是控制有害应用程序的滥用和开发。
Meta 相信,把模型提供给更广泛的受众,他们将可以更好地研究和预防它们可能造成的任何伤害。
Meta 是这样描述这项工作的:“我们希望,OPT-175B 将为大型语言模型创建前沿带来更多的声音,帮助社区共同设计负责任的发布策略,并为该领域大型语言模型的开发增加前所未有的透明度和开放性。”
大型语言模型的成本
然而,值得注意的是,“透明和开放”并不等同于“民主化大型语言模型”。训练、配置和运行大型语言模型的成本仍然很高,而且未来可能还会增长。
根据 Meta 的博文,模型的研究人员已经大幅降低了训练大型语言模型的成本。该公司表示,这个模型的碳排放量已减少到 GPT-3 的七分之一。据我之前采访过的专家估计,GPT-3 的训练成本高达 2760 万美元。
这意味着,OPT-175B 的训练成本仍将高达数百万美元。幸运的是,预训练的模型可以避免模型训练过程,并且 Meta 表示,他们将提供“只使用 16 块 NVIDIA V100 GPU”就可以完成整个模型训练和部署的代码库。这相当于一台英伟达(Nvidia)DGX-2,成本约为 40 万美元。对于资金紧张的研究实验室或个体研究人员来说,这不是一个小数目。(根据一篇提供了更多 OPT-175B 细节的论文,Meta 使用 992 块 A100 80GB GPU 训练了自己的模型,这款 GPU 明显比 V100 快。)
Meta AI 的日志进一步证实,训练大型语言模型是一项非常复杂的任务。OPT-175B 的时间线上到处都是服务器崩溃、硬件故障和其他需要高级技术人员才能解决的并发症。研究人员还不得不多次重启训练过程,调整超参数,修改损失函数。所有这些都会产生小型实验室无法承担的额外费用。
大型语言模型的未来
语言模型如 OPT 和 GPT 都是基于转换器架构的。转换器的关键特性之一是它们能够大规模地并行处理海量时序数据(如文本)。
近年来,研究人员已经证明,增加转换器模型的层数和参数,可以提高它们在语言任务上的性能。一些研究人员认为,达到更高的智能水平只是一个规模问题。因此,像 Meta AI、DeepMind(由 Alphabet 拥有)和 OpenAI(由微软支持)这样现金充足的研究实验室正在朝着创建越来越大的神经网络前进。
某人的观点文章。我的看法是:现在都是规模问题了!游戏结束了!现在只要让这些模型更大、更安全、计算效率更高、采样更快、记忆更智能、模式更多样、数据更有创新性,无论在线还是离线......1/N https://t.co/UJxSLZGc71
—— Nando de Freitas(@NandoDF)
去年,微软和英伟达创建了一个有 5300 亿个参数的语言模型,名为 Megatron-Turing (MT-NLG)。上个月,谷歌推出了路径语言模型(PaLM)。这是一个有 5400 亿个参数的 LLM。有传言称,OpenAI 将在未来几个月发布 GPT-4。
然而,神经网络越大需要的财政和技术资源也越多。虽然更大的语言模型会带来新的东西(和新的问题),但不可避免地,它们将把权力集中在少数富有的公司手中,使得较小的研究实验室和独立的研究人员更难研究大型语言模型了。
在商业方面,大型科技公司将拥有更大的优势。运行大型语言模型是非常昂贵和具有挑战性的。像谷歌和微软这样的公司有特殊的服务器和处理器,他们能够大规模运行这些模型并从中获利。对于比较小的公司来说,运行自己的 LLM(如 GPT-3)版本开销太大了。正如大多数企业使用云托管服务,而不是构建自己的服务器和数据中心一样,随着大型语言模型变得越来越流行,像 GPT-3 API 这样的开箱即用系统将越来越有吸引力。
这反过来又会使人工智能进一步集中在大型科技公司的手中。越来越多的人工智能研究实验室将不得不与大型科技公司建立合作伙伴关系,以获得资助。而这将使大型科技公司有更多的权力来决定人工智能研究的未来方向(这可能会与他们的经济利益相一致)。这可能要以那些短期内无法产生投资回报的研究领域为代价。
最后,当我们庆祝 Meta 为 LLM 带来透明度的时候,请不要忘记,大型语言模型本质上就是不民主的,而是有利于推广它们的公司。
评论