GPT-4 即将亮相——聊聊我们已经知晓的一切

GPT-4 正式发布的日子越来越近了。官方信息、当前趋势、未来预测，都在这里。

GPT-3 首度亮相于大约两年之前的 2020 年 5 月，当时正值 GPT-2 发布的一年之后。而 GPT-2 距离最初 GPT 研究论文的发表也是相隔一年。如果这种周期性趋势继续保持不变，那 GPT-4 肯定也快跟大家见面了。但 OpenAI 公司 CEO Sam Altman 几个月前已经打过预防针，表示 GPT-4 预计会在 2022 年年内推出，具体可能是在 7 月到 8 月左右。

虽然备受瞩目，但 GPT-4 目前的公开消息确实相当有限：它会是什么样子、带来怎样的特性或能力，一概不知。Altman 去年曾在一场问答中谈到过 OpenAI 对于 GPT-4 项目的规划，但同时也提醒与会者尽量保持冷静、不要过度乐观。如今七个月已经过去，咱们可以回头看看他的发言了。Altman 首先确认，GPT-4 的参数量不会达到 100 万亿，毕竟规模真到那个程度、今年年内也就不用指望了。

OpenAI 很有一段时间没聊过 GPT-4 的事了，但结合 AI 领域、特别是 NLP 领域获得高度关注的热门趋势，我们倒是可以推断一下 GPT-4 的开发思路。考虑到这些方法大获成功、OpenAI 又都有参与其中，咱们可以从 Altman 的发言中整理出点线索。先说结论：我觉得 GPT-4 不会继续走模型越来越大的老路。

下面来看关于 GPT-4 的具体预测。

模型大小：GPT-4 不会走越来越大的老路

GPT-4 不会在规模上刷新语言模型的新纪录。Altman 提到 GPT-4 不会比 GPT-3 大多少。虽然跟前几代神经网络相比，GPT-4 肯定也不算小，但其发展思路应该有所改变。我猜 GPT-4 可能介于 GPT-3 和 Gopher（1750 亿到 2800 亿参数）之间。

这可不是乱说的，我有恰当的理由。

英伟达和微软去年建立的 Megatron-Turing NLG 以 5300 亿参数获得了最大密集神经网络的称号，体量已经达到 GPT-3 的 3 倍。直到最近，谷歌的 PaLM 才以 5400 亿参数将其挤下宝座。但值得注意的是，MT-NLG 之后相继出现了一些体量较小、但性能水平更高的新模型。

时代变了，更大不再等于更好。

这些更小却更好的模型，给我们带来了两个启示。

首先，企业们意识到用做大模型的方式提高代理性能既不是唯一的方法、也不再是最好的方法。2020 年，OpenAI 的 Jared Kaplan 和同事们就已经得出结论，当算力规模的增加主要用于根据幂律关系扩展参数数量时，性能提升效果最佳。谷歌、英伟达、微软、OpenAI、DeepMind 等语言模型开发公司明显走的都是这个路子。

然而，MT-NLG 的出现证明参数更多并不一定代表性能更好。事实上，它在任何单一基准测试类别中都拿不到最高分。反而是 Gopher（2800 亿参数）或 Chinchilla（700 亿参数）等相对较小的模型，在实际表现上远超 MT-NLG。

这就带来了第二点启发。

企业开始对“越大越好”的僵化教条说不。事实证明，参数量的增加只是提高性能的多种因素之一。而由此带来的负面影响（例如碳排放增加、计算成本膨胀、准入门槛过高）已经让这种看似简单的方法不再简单。于是乎，各家企业只会在没法通过较小模型获得相似或更佳表现时，才考虑构建巨大模型。

Altman 表示，他们也决定由此转型、探索怎样让更小的模型发挥更佳效能。OpenAI 的研究人员们曾经是“规模扩张”派的早期支持者，但现在他们可能也意识到还有其他模型改进路线值得探索。

正因为如此，GPT-4 才不会比 GPT-3 大很多。OpenAI 将把关注重点转向其他方面——例如数据、算法、参数化或者对齐，这些反而更有希望带来显著改进。所以传说中的 100 万亿参数模型恐怕暂时没戏喽。

优化：发掘 GPT-4 的全部潜能

语言模型优化一直是个恼人的问题。因为模型的训练成本过高，企业不得不在准确性与成本之间做出权衡，这又往往导致模型优化程度不够理想。

GPT-3 只训练过一次，后续只会在特殊情况下针对错误进行重新训练。OpenAI 决定不这么搞了，因为成本太过高昂、研究人员也没办法找到模型的最佳超参数集（例如学习率、批次大小、序列长度等）。

高训练成本带来的另一个后果，就是难以对模型行为开展分析。当初 Kaplan 团队认定模型大小将成为性能提升的关键变量时，并没有考虑到训练 token 的数量——即模型输入的数据量。这明显需要消耗大量计算资源。

而科技巨头们之所以走上 Kaplan 的这条道路，就是因为自己手里掌握着大量算力。讽刺的是，谷歌、微软、Facebook 等大厂在这些硕大无比的模型身上“浪费”了数百万美元，由此造成的污染更是难以估计，但最初的目的却是为了省钱。

如今，以 DeepMind 和 OpenAI 为代表的企业开始探索其他方法，希望找到最佳、而非最大的模型。

最优参数化

上个月，微软和 OpenAI 已经证明只要用最佳超参数训练模型，GPT-3 还有进一步改进的空间。他们发现 GPT-3 的 67 亿参数版本能够借此实现性能飞跃，表现甚至不逊于最早 130 亿参数的版本。由此可见，在大型模型中根本不可行的超参数调优其实前景光明，完全能够实现相当于参数倍增的性能提升。

双方还发现一种新的参数化方法 (μP)，证明小模型中的最佳超参数在同家族的较大模型中同样适用。μP 能够以更低的训练成本对任意大小的模型进行优化，之后以几乎零成本方式将得出的超参数迁移至更大的模型当中。

最优计算模型

几周之前，DeepMind 重新审查了 Kaplan 的发现，并意识到与人们的普遍认知相反，训练 token 数量对于性能的影响基本等同于模型大小。他们由此得出结论，认为随着算力资源的提升，最好是把这些资源平均分配给新增的参数和数据。他们还通过训练 Chinchilla 来验证这一假设——Chinchilla 是一个包含 700 亿参数的模型（相当于 Gopher 的四分之一），但训练用的数据量却是自 GPT-3 以来所有大型语言模型的 4 倍（共使用 1.4 万亿个 token，远超常规的 3000 亿水平）。

结果令人欣喜。Chinchilla 在众多语言基准测试中“稳定且显著”优于 Gopher、GPT-3、MT-NLG 等因体量过大而无法充分训练的其他语言模型。

考虑到 GPT-4 终归还是要比 GPE-3 略大，所以让它达到最优计算水平所需要的训练 token 量应该在 5 万亿左右（根据 DeepMind 的发现），这要比当前数据集高出一个量级。而达成最小训练损失所需要的算力总量则相当于 GPT-3 的约 10 至 20 倍（按 Gopher 的算力消耗来推断）。

Altman 在问答中提到 GPT-4 占用的算力总量要超过 GPT-3，也许说的就是这个意思。

OpenAI 肯定会在 GPT-4 中充分发掘最优方案，但由于不知道他们划定了多少资源预算，所以很难给出确切的推断。不过可以肯定的是，OpenAI 一定会专注于优化除模型大小之外的其他变量。只要能找到最优超参数集、计算模型大小以及参数数量，那 GPT-4 完全有希望在全部基准测试中带来超出想象的优异表现。如果它真能获得这样集万千优势于一身的形态，那么 GPT-4 就是毫无疑问的语言模型之王。

Altman 还提到，人们一直觉得更大的模型肯定就更好，言下之意可能是规模扩张的道路将由此终结。

多模态：GPT-4 将是一个纯文本模型

深度学习的未来在于多模态模型。人类的大脑包含多种感官系统，为的正是适应现实中的多模世界。但只能支持一种模态、理解一种感知的 AI 模型，明显无法在理解与分析能力方面再上一个台阶。

必须承认，良好的多模态模型要比纯语言或纯视觉模型更难构建。光是把视觉和文本信息组成成单一表示本身，就已经是项异常艰巨的任务。我们甚至不清楚人脑是怎么做到这一点的（当然，深度学习社区其实也没有深入钻研认知学意义上的大脑结构和功能分区），当然没办法在神经网络中重现这种能力。

Altman 在问答中提到，GPT-4 不会是像 DALL·E 或者 LaMDA 那样的多模态模型，而是一个纯文本模型。我猜他们希望把语言模型推到极致，在转向下一代多模态 AI 之前先搞定模型调优与数据集大小等问题。

稀疏性：GPT-4 将是个密集模型

稀疏模型采取的是有条件计算思路，即使用模型中的不同部分来处理不同类型的输入。这种方法近期取得了巨大成功，相关模型甚至能够轻松扩展到超万亿参数规模，却又不会受到高计算成本的影响。这相当于是在模型大小和算力预算之间找到了理想的平衡点。然而，这种 MoE 方法的优势在超大规模模型中往往会急剧减弱。

考虑到 OpenAI 多年来一直坚持探索密集语言模型，所以我们有理由相信未来的 GPT-4 也会是密集模型。Altman 还提到 GPT-4 不会比 GPT-3 大太多，所以我们认为 OpenAI 不会在 GPT-4 上走稀疏模型的道路——至少这次内不会。

但人脑其实就高度依赖于稀疏处理，所以跟多模态相似，稀疏模型也很可能在未来几代神经网络中成为主流。

对齐：GPT-4 对齐度将高于 GPT-3

OpenAI 在 AI 对齐问题上做出了诸多努力，其核心在于探索如何让语言模型遵循人类的意图、符合人类价值观。这不只是个数学难题（即如何让 AI 准确理解我们想要的结果），同时也属于哲学挑战（由于不同人类群体间的价值观存在巨大差异、甚至相互矛盾，所以不可能存在一种能让 AI 与人类永远保持一致的通用方法）。

但 OpenAI 仍然勇敢做出了尝试，最初的探索就是 InstructGPT。这是一个经过更新的 GPT-3 模型，能够接收人工反馈以学会遵循指令（但暂不考虑这些指令是否友善）。

Instruct GPT 的核心突破，在于无论它在语言基准测试上得分如何，生成的结果都更符合人类评判者的喜好（但 OpenAI 员工基本都说英语，所以这个结论也仍然不完全可靠）。从这个角度看，也许我们未来不该单纯用基准测试作为 AI 能力评估的唯一指标。人类的感受可能同样重要、甚至更加重要。

之前 Altman 与 OpenAI 都曾经对有益人工通用智能（AGI）发表过严肃承诺，所以我相信 GPT-4 肯定会借用一部分从 InstructGPT 中获得的发现。

他们会改进模型的对齐方式，突破只顺应“说英语的内部员工”的樊篱。真正的对齐必须能够顺应不同性别、不同种族、不同国籍、不同宗教信仰等各类群体的习惯。这当然是个严苛挑战，而朝这个目标迈出的任何一步都将是可喜的进展。

情报总结

模型大小：GPT-4 会比 GPT-3 更大，但应该小于当前最大的语言模型（5300 亿参数的 MT-NLG 与 5400 亿参数的 PaLM）。总之，GPT-4 不再强调以大取胜。

优化：GPT-4 消耗的算力比 GPT-3 更多。它将在参数化（最优超参数）与规模扩展（训练 token 数量与模型大小同等重要）方面做出新的最优性探索。

多模态：GPT-4 将是一个纯文本模型（而非多模态模型）。OpenAI 正努力将语言模型发挥到极致，之后再逐步转向 DALL·E 等有望全面超越单模态系统的多模态模型。

稀疏性：GPT-4 将延续 GPT-2 与 GPT-3 的趋势，仍然保持密集模型的身份（使用全部参数来处理任何给定输入）。但未来稀疏性可能逐渐占据主导地位。

对齐：GPT-4 的对齐程度将高于 GPT-3。借助从 InstructGPT 中总结出的知识，GPT-4 也将获得由人工反馈训练得出的宝贵经验。但 AI 对齐难题的彻底解决还有很长的路要走，目前仍在探索阶段、不宜大肆宣扬。

原文链接：

https://towardsdatascience.com/gpt-4-is-coming-soon-heres-what-we-know-about-it-64db058cfd45

创作场景