写点什么

别慌,Scaling Laws 的末日还早!“革新版”迅速出现,多位大牛都在叫好

  • 2024-11-18
    北京
  • 本文字数:3698 字

    阅读完需:约 12 分钟

大小:1.62M时长:09:24
别慌,Scaling Laws 的末日还早!“革新版”迅速出现,多位大牛都在叫好

整理 | 华卫、核子可乐


近日,有外媒报道称,OpenAI 正在制定新策略,以应对人工智能大模型改进速度放缓的问题。当时消息一出,知名认知科学家、AI 研究员 Gary Marcus 立即表示,“正如我所说,GPT 正在进入收益递减的时期。”



而近期,遭遇发展瓶颈的大模型似乎并不只有 GPT,所遇到的问题也远不仅于一个。彭博社在最新文章中这样写道:“(OpenAI、谷歌、Anthropic)三家 AI 公司为开发新模型付出了巨额努力,但回报越来越少。


看到这一论断后,OpenAI 负责模型微调的研究员 Steven Heidel 公开表示,“即使大模型的进展完全停止(需要明确的是,这并没有发生),仍然有至少十年的产品可以在今天的模型上建立。”


言下之意大概是,大模型在未来几年仍“大有前途”。与此同时,AI 圈也在几波的消息冲击下,迎来了多项立于新视角的重大成果。


OpenAI 在内,都撞到了同一堵墙


事情的最开始,是 The Information 突然曝料,OpenAI 的下一个旗舰模型可能不会像其“前辈”那样带来巨大的飞跃。测试代号为 Orion 的新模型的 OpenAI 员工发现,尽管它的性能超过了 OpenAI 的现有模型,并且只完成了 20% 的训练就达到了 GPT-4 的水平,但与从 GPT-3 到 GPT-4 的巨大飞跃相比,整体质量的提升要小得多。


换句话说,GPT 的升级速度似乎正在放缓。事实上,Orion 在某些领域(如编码)可能并不会比以前的模型更好。对于此前有关其旗舰车型计划的消息时,OpenAI 方面表示:“我们今年没有发布 Orion 模型的计划。


报道提到,GPT 开发速度放缓的部分原因是用于预训练的文本和数据供应减少(预训练有助于 LLM 理解概念之间的关系,从而解决起草内容或调试代码等任务)。根据 OpenAI 员工和研究人员的说法,该公司现在难以获得高质量的培训数据,开发人员已经耗尽了网站、书籍和其他用于预培训的公开文本。


为了解决这些问题,OpenAI 成立了一个基础团队,以研究如何在新训练数据不断减少的情况下继续改进其模型的新策略。据介绍,新策略包括在利用人工智能模型生成的合成数据训练模型,以及在后期训练过程中对具有有限新数据的模型进行更多改进。


这种减速或表明,由于数据稀缺和硬件成本飙升等因素,对大模型来说,传统的扩展改进可能已经达到极限。“传统 scaling laws 下的 LLM 进展可能会放缓”,有研究人员和企业家担心,生成式 AI 已经遇到了障碍,即使如 OpenAI 般急于扩大该技术使用规模的公司,也发现这在实践中很棘手。



并且,类似的困境不止出现在 OpenAI,还有其他前沿实验室在这方面遇到更严重的问题。据数据科学家 Yam Peleg 曝料,从某个前沿实验室传出消息,他们试图通过更长时间的训练和使用越来越多的数据来强行获得更好的结果,结果却意外地达到了一个巨大的收益递减墙(比公开发布的更严重)。



“因此,我认为可以肯定的是,所有主要参与者都已经达到了训练时间更长、收集数据更多的极限… 现在的关键是数据质量,而这需要时间。”Peleg 表示。而这样的说法正在被不少人认同,有网友表示,“所有的实验室似乎都撞到了这样的墙。”



总而言之,目前可能需要新的方法来推动 AI 技术超越其当前的极限。


“LLM 只会照本宣科”,一生变就崩溃?


“我们的数据用完了。合成数据始终意味着提炼现有模型,而不是向人类学习。”一位网友在听到消息后这样说道。



另一位网友则表示,“未来应该是 LLM 与推理模型相结合,推理能力越强,效果越好。天不会塌下来。”



一波未平一波再起,除此之外,最近麻省理工学院的一项研究又引发了许多人对于大模型本身理解和学习能力的诸多质疑,甚至有网友锐评道,“LLM 只会照本宣科,而不能像人类甚至其他动物那样将所学到的知识应用于新事物。”


研究人员发现,尽管生成式 AI 的输出令人印象深刻,但其对世界并没有连贯的理解。也就是说,一旦任务或者环境稍有变化,之前表现良好的模型可能会瞬间崩溃。


研究人员重点研究的是 transformer 模型,一类在随机生成的序列数据之上训练而成,另一类则由遵循策略生成的数据训练而成。并将评估示例放在确定性有限自动化(DFA)的问题上,分别是在纽约市的街道上导航以及玩棋盘游戏。


在导航的应用例中,虽然模型能够近乎完美地为用户提供纽约市的导航路线,但当研究人员封闭部分街道再添加绕行路线之后,其性能则会显著下降。哈佛大学博士后 Keyon Vafa 表示,“令人惊讶的是,只要添加一条绕行路线,模型性能就会迅速下降。哪怕我们只封闭掉 1% 的街道,准确率就会立即从接近 100% 下降到 67%。”


但两类 transformer 模型都没能在导航示例中形成连贯的世界模型,并且研究人员在还原模型生成的城市地图时发现,该地图往往包含随机方向的天桥或者大量现实中并不存在的街道。


而在棋盘游戏的示例中,他们发现 transformer 无需了解任何规则,就几乎能够准确预测游戏中的有效棋路。Vafa 解释道,“棋盘游戏中,如果你看到的是两台随机计算机在下棋,而不是冠军棋手在下棋,理论上你会看到所有可能的棋步,甚至是冠军棋手不会走的坏棋。”


令人惊讶的是,研究人员发现随机做出选择的 transformer 反而形成了更准确的世界模型,这可能是因为它们在训练期间接触过更多潜在的下一步棋路。不过,尽管 transformer 几乎在所有情况下都能生成准确的方向和有效的棋路,只有一类模型能够生成连贯的世界模型。


研究人员强调,“看到这些模型那令人印象深刻的表现,我们往往认为它们一定是对现实世界有所了解。但我想提醒大家的是,这个问题不可轻下结论,更不能单凭直觉就言之凿凿。”


对于目前大模型发展中显现的这些瓶颈,有网友提出了一些有趣的想法。


一位网友建议,“我想知道是否有可能将 LLM 与 Cyc(一个逻辑引擎和生活常识规则数据库)连接起来。该引擎可以找到语言模型(文本)和 Cyc 模型之间的最佳匹配,并对较短的候选模型(最小的逻辑图)进行加权。从语言模型生成候选 Cyc 模型可能首先需要大量的训练。”



还有一位网友表示,“现在需要人形机器人来改进 scaling law。如果没有机器人在现实世界中亲身经历的纯数据,GPT 就不可能得到改进。”



scaling 开始出现“正确的方向”


眼见 scaling laws “撞墙”的消息让 AI 圈炸开了锅,声势也愈演愈烈,隔几日后 The Information 再次发文对先前的曝料作了进一步解释。


据其介绍,此前 OpenAI 的 CEO Sam Altman 在 Reddit 上被问及 GPT-5 和 o1 的完整版本时透露,OpenAl 将优先考虑开发 o1 及其后续产品,而不是 GPT,理由是并行发布的计算资源有限。并且,OpenAI 可能会放弃其于 2018 年开始的 GPT 命名约定 (GPT-1),考虑将 Orion 与 Q*/Strawberry 推理能力融合为“o2"。


The Information 称,Altman 之所以专注于推出推理模型,正是因为 GPT 的改进速度正在放缓。而他们的推理范式通过对数线性计算扩展引入了新的扩展潜力,尽管 o1 的定价比非推理模型高出六倍,目前还限制了其客户群。


路透社也发文称,有十几位人工智能科学家、研究人员和投资者认为,这些技术(OpenAI 最近发布的 o1 模型背后的技术)可能会重塑人工智能军备竞赛的格局,并对人工智能公司对能源和芯片类型等资源的需求产生影响。


对这场 scaling 广遭质疑的“闹剧”,图灵奖得主 LeCun 则引用 Ilya Sutskever 此前的表述道, “2010 年代是 scaling 的时代,现在我们又回到了奇迹和发现的时代”,“现在 scaling 正确的方向比以往任何时候都更重要。”


最近几天我们也看到,开始有围绕传统 scaling laws 作进一步改进和优化的成果和路线涌到公众视线中。


首先是 OpenAI 研究员 Noam Brown 转发了一项麻省理工学院关于“测试时训练 (Test-Time Training, TTT) 能够让 scaling 模型的性能有很大提升”的研究,并透露道,O1 中也开发了一种名为“测试时计算”的方法。“ 我很高兴看到学术研究人员朝着这个方向探索新方法。”Brown 说。



还有来自哈佛大学、斯坦福大学与 MIT 等机构的合作团队,提出了一种“精度感知”(precision-aware)的 scaling laws,该定律在模型参数数量和数据规模之外增加了精度的考量维度,允许预测模型在不同精度下的损失,并表明以较低精度训练较大的模型可能是计算最优的。


即将担任 UCSD 助理教授的 Dan Fu 这样评价该成果,“随着下一代的 GPU 上线,我一直在想的一件事是,我们可以将量化 /scaling 位数的范围降低到何种程度……这篇论文迈出了回答这个问题的第一步!”


参考链接:


https://www.bloomberg.com/news/articles/2024-11-13/openai-google-and-anthropic-are-struggling-to-build-more-advanced-ai?srnd=


https://techcrunch.com/2024/11/09/openai-reportedly-developing-new-strategies-to-deal-with-ai-improvement-slowdown/


https://www.eecs.mit.edu/despite-its-impressive-output-generative-ai-doesnt-have-a-coherent-understanding-of-the-world/


https://slashdot.org/story/24/11/10/1911204/generative-ai-doesnt-have-a-coherent-understanding-of-the-world-mit-researchers-find


https://www.reuters.com/technology/artificial-intelligence/openai-rivals-seek-new-path-smarter-ai-current-methods-hit-limitations-2024-11-11/


https://www.reddit.com/r/singularity/comments/1goycbf/the_information_expands_on_their_saturday_report/


2024-11-18 10:115112

评论

发布
暂无评论
发现更多内容

Kubernetes 审计日志采集与分析最佳实践

观测云

#k8s

DBA福利来了!《YashanDB数据库概念手册》正式发布

Geek_2d6073

交友网站系统平台搭建 语音社交app源码,语音聊天交友 社交app 婚恋交友专业开发

DUOKE七七

小程序源码 交友小程序

通过HPA+CronHPA组合应对业务复杂弹性伸缩场景

华为云开发者联盟

云原生 华为云 华为云开发者联盟 华为云CCE 企业号2024年5月PK榜

AI Agent深度解析:潜力与挑战并存的智能新世界

可信AI进展

人工智能「

如何跨越 LangChain 应用研发的最后一公里

Jade@pluto-lang

IaC AWS CDK Cloud Native LLM langchain

记TiDB学习之路

TiDB 社区干货传送门

社区活动

免费试听 | 北京测试开发高薪线下周末班马上开班,手把手带你提升职业技能

测吧(北京)科技有限公司

测试

“7”势如虹|突破集成边界,谷云科技成为iPaaS领头羊!

RestCloud

周年

mysql经典 1 异步复制after sync和after commit

趁早

入围全球机器人顶会ICRA 2024!毫末在RoboDrive2024挑战赛崭露头角

Geek_2d6073

AI晚报|GPT-4o Omni金牌团队首揭秘!苹果将推出全新辅助功能,小米大模型MiLM正式通过备案...

可信AI进展

#人工智能

跨端自渲染绘制的实践与探索

京东零售技术

前端 React 企业号 5 月 PK 榜 跨端渲染 多端兼容

AI日报|谷歌发布Astra反击GPT-4o,字节发布9个自研大模型,腾讯混元开源文生图大模型...

可信AI进展

北京测试开发高薪线下周末班,手把手带你提升职业技能

测试人

软件测试

GPT搜索引擎原型曝光!新模型GPT4-Lite驱动,虽然鸽了发布会但代码已上传

Openlab_cosmoplat

瞬间优化 ChatGPT 指令的 2 种方法

蓉蓉

GPT #人工智能 ChatGPT4

6 大原则!助你构建高绩效的研发强军 | Liga译文

LigaAI

经验分享 研发团队 研发效能管理 高绩效团队 企业号 2024年5月 PK 榜

冲刺PCTA

TiDB 社区干货传送门

学习&认证&课程

别慌,Scaling Laws 的末日还早!“革新版”迅速出现,多位大牛都在叫好_AI&大模型_华卫_InfoQ精选文章