写点什么

天塌了,Scaling Law 已撞收益递减墙?OpenAI 在内,所有大模型都正遭遇巨大瓶颈

  • 2024-11-12
    北京
  • 本文字数:2407 字

    阅读完需:约 8 分钟

大小:1.08M时长:06:18
天塌了,Scaling Law 已撞收益递减墙?OpenAI 在内,所有大模型都正遭遇巨大瓶颈

整理 | 华卫、核子可乐


近日,有外媒报道称,OpenAI 正在制定新策略,以应对人工智能大模型改进速度放缓的问题。消息一出,知名认知科学家、AI 研究员 Gary Marcus 立即表示,“正如我所说,GPT 正在进入收益递减的时期。”而近期,遭遇发展瓶颈的大模型似乎并不只有 GPT,所遇到的问题也远不仅于一个。



OpenAI 在内,都撞到了同一堵墙


根据 The Information 的最新报道,OpenAI 的下一个旗舰模型可能不会像其“前辈”那样带来巨大的飞跃。测试代号为 Orion 的新模型的 OpenAI 员工发现,尽管它的性能超过了 OpenAI 的现有模型,并且只完成了 20% 的训练就达到了 GPT-4 的水平,但与从 GPT-3 到 GPT-4 的巨大飞跃相比,整体质量的提升要小得多。


换句话说,GPT 的升级速度似乎正在放缓。事实上,Orion 在某些领域(如编码)可能并不会比以前的模型更好。对于此前有关其旗舰车型计划的消息时,OpenAI 方面表示:“我们今年没有发布 Orion 模型的计划。


报道提到,GPT 开发速度放缓的部分原因是用于预训练的文本和数据供应减少(预训练有助于 LLM 理解概念之间的关系,从而解决起草内容或调试代码等任务)。根据 OpenAI 员工和研究人员的说法,该公司现在难以获得高质量的培训数据,开发人员已经耗尽了网站、书籍和其他用于预培训的公开文本。


为了解决这些问题,OpenAI 成立了一个基础团队,以研究如何在新训练数据不断减少的情况下继续改进其模型的新策略。据介绍,新策略包括在利用人工智能模型生成的合成数据训练模型,以及在后期训练过程中对具有有限新数据的模型进行更多改进。


这种减速或表明,由于数据稀缺和硬件成本飙升等因素,对大模型来说,传统的扩展改进可能已经达到极限。“传统 scaling laws 下的 LLM 进展可能会放缓”,有研究人员和企业家担心,生成式 AI 已经遇到了障碍,即使如 OpenAI 般急于扩大该技术使用规模的公司,也发现这在实践中很棘手。



类似的困境不止出现在 OpenAI,还有其他前沿实验室在这方面遇到更严重的问题。据数据科学家 Yam Peleg 曝料,从某个前沿实验室传出消息,他们试图通过更长时间的训练和使用越来越多的数据来强行获得更好的结果,结果却意外地达到了一个巨大的收益递减墙(比公开发布的更严重)。



“因此,我认为可以肯定的是,所有主要参与者都已经达到了训练时间更长、收集数据更多的极限… 现在的关键是数据质量,而这需要时间。”Peleg 表示。而这样的说法正在被不少人认同,有网友表示,“所有的实验室似乎都撞到了这样的墙。”



总而言之,目前可能需要新的方法来推动 AI 技术超越其当前的极限。


“LLM 只会照本宣科”,一生变就崩溃?


“我们的数据用完了。合成数据始终意味着提炼现有模型,而不是向人类学习。”一位网友在听到消息后这样说道。



另一位网友则表示,“未来应该是 LLM 与推理模型相结合,推理能力越强,效果越好。天不会塌下来。”



然而,最近麻省理工学院的一项研究却引发了许多人对于大模型本身理解和学习能力的诸多质疑,甚至有网友锐评道,“LLM 只会照本宣科,而不能像人类甚至其他动物那样将所学到的知识应用于新事物。”


研究人员发现,尽管生成式 AI 的输出令人印象深刻,但其对世界并没有连贯的理解。也就是说,一旦任务或者环境稍有变化,之前表现良好的模型可能会瞬间崩溃。


研究人员重点研究的是 transformer 模型,一类在随机生成的序列数据之上训练而成,另一类则由遵循策略生成的数据训练而成。并将评估示例放在确定性有限自动化(DFA)的问题上,分别是在纽约市的街道上导航以及玩棋盘游戏。


在导航的应用例中,虽然模型能够近乎完美地为用户提供纽约市的导航路线,但当研究人员封闭部分街道再添加绕行路线之后,其性能则会显著下降。哈佛大学博士后 Keyon Vafa 表示,“令人惊讶的是,只要添加一条绕行路线,模型性能就会迅速下降。哪怕我们只封闭掉 1% 的街道,准确率就会立即从接近 100% 下降到 67%。”


但两类 transformer 模型都没能在导航示例中形成连贯的世界模型,并且研究人员在还原模型生成的城市地图时发现,该地图往往包含随机方向的天桥或者大量现实中并不存在的街道。


而在棋盘游戏的示例中,他们发现 transformer 无需了解任何规则,就几乎能够准确预测游戏中的有效棋路。Vafa 解释道,“棋盘游戏中,如果你看到的是两台随机计算机在下棋,而不是冠军棋手在下棋,理论上你会看到所有可能的棋步,甚至是冠军棋手不会走的坏棋。”


令人惊讶的是,研究人员发现随机做出选择的 transformers 反而形成了更准确的世界模型,这可能是因为它们在训练期间接触过更多潜在的下一步棋路。不过,尽管 transformers 几乎在所有情况下都能生成准确的方向和有效的棋路,只有后一类模型能够生成连贯的世界模型。


研究人员强调,“看到这些模型那令人印象深刻的表现,我们往往认为它们一定是对现实世界有所了解。但我想提醒大家的是,这个问题不可轻下结论,更不能单凭直觉就言之凿凿。”


结   语


对于目前大模型发展中显现的这些瓶颈,有网友提出了一些有趣的想法。


一位网友建议,“我想知道是否有可能将 LLM 与 Cyc(一个逻辑引擎和生活常识规则数据库)连接起来。该引擎可以找到语言模型(文本)和 Cyc 模型之间的最佳匹配,并对较短的候选模型(最小的逻辑图)进行加权。从语言模型生成候选 Cyc 模型可能首先需要大量的训练。”



还有一位网友表示,“现在需要人形机器人来改进 scaling law。如果没有机器人在现实世界中亲身经历的纯数据,GPT 就不可能得到改进。”



参考链接:


https://techcrunch.com/2024/11/09/openai-reportedly-developing-new-strategies-to-deal-with-ai-improvement-slowdown/


https://x.com/amir/status/1855367075491107039


https://www.eecs.mit.edu/despite-its-impressive-output-generative-ai-doesnt-have-a-coherent-understanding-of-the-world/


https://slashdot.org/story/24/11/10/1911204/generative-ai-doesnt-have-a-coherent-understanding-of-the-world-mit-researchers-find


2024-11-12 16:003620

评论

发布
暂无评论
发现更多内容

Java System.lineSeparator 方法

HoneyMoose

What's new in dubbo-go-pixiu 0.5.1

apache/dubbo-go

dubbogo Dubbo3 Dubbo网关

RocketMQ整体架构与基本概念

急需上岸的小谢

8月月更

直播回顾|多云时代,如何建设企业级云管理平台?(附建设指南下载)

BoCloud博云

云计算 容器 云平台 云管理

搭载2.8K 120Hz OLED华硕好屏 无畏Pro15 2022锐龙版屏开得胜

科技热闻

测试开发【Mock 平台】08 开发:项目管理(四)编辑功能和Component抽离

MegaQi

8月月更

从Delta 2.0开始聊聊我们需要怎样的数据湖

网易数帆

大数据 数据湖 Arctic 湖仓一体

【C#】WCF和TCP消息通信练习,实现群聊功能

南蓬幽

签约计划第三季 8月月更

Apache DolphinScheduler 3.0.0 正式版发布!

白鲸开源

海豚调度 DolphinScheduler 调度器 版本发布

6月各手机银行活跃用户较快增长,创半年新高

易观分析

数据分析 金融 电子银行

HarmonyOS自动化测试框架—Hypium

HarmonyOS开发者

HarmonyOS

【接入指南 之 直接接入】手把手教你快速上手接入HONOR Connect平台(下)

荣耀开发者服务平台

手机 新手指南 安卓 荣耀 honor

CEO对今天的CIO们真正的要求是什么?

BeeWorks

每日一R「03」Borrow 语义与引用

Samson

8月月更 ​Rust

120Hz OLED拒绝“烧屏”!华硕无双全能轻薄本

科技热闻

开源一夏 | mysql5.7 安装部署 -二进制安装

zhangpfly

MySQL 开源 MySQL 运维 #开源 8月月更

MSE 治理中心重磅升级-流量治理、数据库治理、同 AZ 优先

阿里巴巴云原生

数据库 阿里云 微服务 云原生 限流

产品说明丨Android端使用MobPush快速集成方法

MobTech袤博科技

android Android Studio 集成 mobpush

接口测试进阶接口脚本使用—apipost(预/后执行脚本)

Xd

Java 接口测试

选择是公有云还或是私有云,这很重要吗?

BeeWorks

机器学习模型验证:被低估的重要一环

澳鹏Appen

人工智能 机器学习 模型开发 模型开发训练 模型验证

网络可观测性:让您的网络监控更上一层楼|TechGenix

观测云

shell运算详解,看这一篇就够了!

Albert Edison

Linux centos 运维 shell脚本编程 8月月更

开源一夏 | 提高代码可重用性,减少重复劳动--手把手带你实现Python自定义模块并上传到pypi,贡献自己创造的轮子为所有人使用,让Python开发更加简单

迷彩

Python 开源 签约计划第三季 8月月更 自定义模块

RocketMQ 消息集成:多类型业务消息——定时消息

阿里巴巴云原生

阿里云 RocketMQ 云原生 消息队列

兼具外观、性能、屏幕!华硕灵耀X 14火热抢购中

科技热闻

企业即时通讯是什么?可以应用在哪些场景?

BeeWorks

什么是企业知识库?有什么作用?如何搭建?

金陵老街

vue cli 知识库 spring-boot

从企业的视角来看,数据中台到底意味着什么?

BeeWorks

AIRIOT答疑第8期|AIRIOT的金字塔服务体系是如何搞定客户的?

AIRIOT

低代码 物联网 低代码,项目开发

云渲染的应用正在扩大,越来越多的行业需要可视化服务

Finovy Cloud

云渲染 GPU渲染

天塌了,Scaling Law 已撞收益递减墙?OpenAI 在内,所有大模型都正遭遇巨大瓶颈_AI&大模型_华卫_InfoQ精选文章