写点什么

GPT-5 研发一年半进度堪忧!每轮 5 亿美金训练成本打水漂,还得雇人从头“造数据”

  • 2024-12-24
    北京
  • 本文字数:2130 字

    阅读完需:约 7 分钟

GPT-5 研发一年半进度堪忧!每轮 5 亿美金训练成本打水漂,还得雇人从头“造数据”

研发超过 18 个月却还未见影子的 GPT-5(代号 Orion)项目又有了新爆料。


《华尔街日报》最新报道称,有接近该项目的人士表示,尽管目前 Orion 的表现优于 OpenAI 当前的模型,但当前的进步并不足以证明继续运转新模型所需的巨大成本是合理的。


据知情人士透露,GPT-5 至少进行过两轮训练,每次训练都暴露出新的问题,达不到研究人员的预期。而且,每轮训练耗时数月,仅一轮计算成本就接近 5 亿美元。


总而言之,这个项目是否能成功、何时能成功,目前尚不明确。它还面临着一个更严峻的问题:全球的数据量不足以让它达到理想的智能水平。

训练之路困难重重

自 GPT-4 于 2023 年 3 月发布后,OpenAI 随即投入到 GPT-5 的开发。同年 11 月,Altman 就曾表示不会在 2024 年发布任何名为 GPT-5 的东西。


一般来说,AI 模型的能力会随着其吸收的数据量增加而增强。在训练过程中,模型被灌入数万亿个 tokens,训练可能持续好几个月,并且依赖于成千上万块昂贵且稀缺的计算芯片。Altman 曾透露,单是训练 GPT-4 的成本就超过了 1 亿美元,而未来的 AI 模型训练费用预计将突破 10 亿美元。若训练失败,其后果将如同火箭发射失败一样,造成巨大的损失。


为了减少失败的风险,OpenAI 通常会先进行小规模的试运行,以验证模型设计和训练的可行性。通过这种方式,研究人员可以在正式的大规模训练之前发现并修正潜在问题。


然而,GPT-5 的开发从一开始便遇到了挑战。2023 年中,OpenAI 启动了一个名为“Arrakis”的实验性训练,旨在测试 GPT-5 的新设计。遗憾的是,训练进展缓慢,显示出如果进行更大规模的训练,将会耗费极长时间,并且成本极其高昂。实验结果还表明,GPT-5 的开发比原先预期的要更加复杂和困难。


因此,OpenAI 的研究团队决定对 Orion 进行一系列技术调整,并进一步意识到,现有的公开互联网数据已经无法满足模型的需求。为了提升 GPT-5 的性能,他们迫切需要更多种类和更高质量的数据。

“从零开始创造数据”


据报道,为了应对数据不足的问题,OpenAI 决定“从零开始创造数据”。具体来说,OpenAI 正在雇人编写新的软件代码或解决数学问题,让 Orion 从这些任务中学习。这些人包括软件工程师和数学家,并且还会向 Orion 解释他们的工作过程。


许多研究人员认为,代码作为软件的语言,能够帮助大模型解决它们没有见过的问题,从而提升其解决复杂问题的能力。


Turing 公司首席执行官兼联合创始人 Jonathan Siddharth 表示:“我们是在将人类智慧从人脑转移到机器脑。”


在 AI 的训练过程中,Turing 的一位高管解释说,软件工程师可能会被要求编写一个程序来高效地解决复杂的逻辑问题;而数学家则可能需要计算由一百万个篮球构成的金字塔的最大高度。这些任务的关键不只是得到最终答案,更重要的是 得出答案的思考过程,都会被纳入 AI 的训练材料中


此外,OpenAI 还与理论物理学等领域的专家合作,让他们解释如何解决自己领域中的棘手问题。这些内容也有助于提升 Orion 的智能水平。


但不管怎么说,雇人从头构建数据这个事情,怎么看也不会是个高效的过程。GPT-4 的训练数据约为 13 万亿个 token。如果有 1000 个人每天写 5000 个字,生产 10 亿个 token 也得花费几个月的时间。


为了加速训练,OpenAI 也有用所谓的“合成数据”,即由 AI 生成的数据,来帮助训练 Orion。然而有研究表明,AI 生成数据再用于 AI 训练的反馈循环,有时会导致模型出错或生成毫无意义的答案。


对此,知情人士称,OpenAI 的科学家认为,通过使用 o1 生成的数据可以避免这些问题。

内外夹击下前行


OpenAI 面临的挑战不仅仅是技术层面的,还有内部的动荡和竞争对手几乎不间断的挖角。其次,来自技术和资金的双重压力也在明显增加。每一次的训练耗资高达 5 亿美元,那么最后训练成本就很可能超过 10 亿美元。与此同时,竞争对手的崛起对 OpenAI 构成了更大压力。Anthropic、谷歌等公司纷纷推出新一代模型,试图赶超 OpenAI。


人才流失和内部分歧进一步拖慢了开发进度。去年,OpenAI 董事会突然解雇了 Altman,导致一些研究人员开始质疑公司是否能够继续运作。然而,Altman 很快被重新任命为 CEO,并着手对公司的治理结构进行改革。


今年以来,超过 20 位关键高管、研究人员和长期员工离开了 OpenAI,其中包括联合创始人兼首席科学家 Ilya Sutskever 和技术负责人 Mira Murati。就在前不久,广受尊敬的研究人员 Alec Radford 也宣布离职,他曾在 OpenAI 工作约八年,并主笔了多篇重要论文。


随着 Orion 的进展停滞,OpenAI 开始开发其他项目和应用,包括简化版的 GPT-4 和可以生成 AI 视频的 Sora 产品。但报道也提到,这导致了 不同团队之间争夺有限计算资源的局面,特别是在新产品开发团队和 Orion 研究团队之间,发生了激烈的竞争。


GPT-5 的困境或许揭示了一个更大的行业命题:AI 是否已经接近发展的“瓶颈期”?业内人士指出,依靠海量数据和更大模型的策略正逐渐失效。正如前 OpenAI 科学家苏茨克维尔日前在公开场合所说,“我们只有一个互联网”,数据的增长正在放缓,这一推动 AI 飞跃的“化石燃料”正逐渐枯竭


对于 GPT-5 的未来,Altman 始终未给出明确的时间表,目前我们仍然无法确定 OpenAI 何时或者是否会推出一个值得称为 GPT-5 的模型。


参考链接:

https://www.wsj.com/tech/ai/openai-gpt5-orion-delays-639e7693

2024-12-24 15:411

评论

发布
暂无评论

认识一下,我们是应用社交「幕后大佬」 IM 家族

融云 RongCloud

即时通讯 IM

狂野之心 The Wild at Heart for Mac (魔法森林冒险游戏)

互联网搬砖工作者

火山引擎DataLeap:一家企业,数据体系要怎么搭建?

字节跳动数据平台

大数据 数据架构 数据治理 数据研发 企业号 3 月 PK 榜

深圳高新技术企业申请条件以及流程简单说明

行云管家

高新企业 高新技术 高新

“伯乐”流量调控平台工程视角 | 得物技术

得物技术

运营 架构-

3 月 16 日晚 8 点,陪你一起从 CentOS 迁移到 OpenCloudOS!

OpenCloudOS

Linux

得物榜单|全链路生产迁移及B/C端数据存储隔离

得物技术

运维 生产

分布式数据库架构路线大揭秘

华为云开发者联盟

数据库 后端 华为云 华为云开发者联盟 企业号 3 月 PK 榜

透过现象看Java AIO的本质 | 得物技术

得物技术

后端 Java】

强烈推荐!阿里架构师纯手写的大型分布式项目《凤凰架构》手册

Java你猿哥

Java 架构 微服务 微服务架构 面经

LP流动性质押挖矿dapp系统开发分红模式定制

开发v-hkkf5566

行云管家堡垒机客服电话是多少?谁知道?

行云管家

网络安全 数据安全 堡垒机 行云管家

如何提升运维的效率,可以用小程序试试

没有用户名丶

DockQuery | 成为信创产业“关键码”

BinTools图尔兹

数据库 信创产业 国产数据库工具 DockQuery

DNS、硬件、LVS、Nginx该如何搭配?

源字节1号

前端开发 后端开发 小程序开发,软件开发

LED显示屏与LCD拼接屏的对比

Dylan

PC LCD1602液晶显示屏 LED显示屏

pix2pix3D:只需编辑标签,就能生成更逼真的三维图像

Zilliz

火山引擎DataTester:A/B实验如何应用在抖音的产品优化流程中?

字节跳动数据平台

大数据 云服务 AB testing实战 ab测试 企业号 3 月 PK 榜

【小程序案例】支付宝小程序-MQTT模器,IoT设备通过WSS接入阿里云IoT物联网平台——设备接入类

阿里云AIoT

JavaScript windows 物联网

GPT-4问世;LLM训练指南;纯浏览器跑Stable Diffusion

OneFlow

人工智能 深度学习

IDEA 插件最佳组合:JRebel+XRebel 热部署和接口分析优化,太爽了

Java你猿哥

Java Spring Boot ssm IDEA 热部署

火山引擎数智平台VeDI 帮助智能投影仪更懂用户需求

字节跳动数据平台

营销数字化 业务增长 用户运营 企业号 1 月 PK 榜

高级数据库管理:SQLPro for SQLite激活版

真大的脸盆

数据库 Mac 数据库管理工具 数据库管理 Mac 软件

【总结】Java实现短信验证码

宙哈哈

Java 验证码

ChunJun 顺利晋级“2022 年中国开源创新大赛”决赛,并荣获“优秀开源项目/社区”奖项

袋鼠云数栈

开源

应用内支付服务现网、沙盒环境下常见关键事件的对比与总结

HarmonyOS SDK

HMS Core

协同存储,为边缘计算创造更大价值

阿里云CloudImagine

云计算 边缘计算

C#滑动拼图验证码实现笔记

宙哈哈

C# html 验证码

在昇腾平台上对TensorFlow网络进行性能调优

华为云开发者联盟

人工智能 华为云 昇腾 华为云开发者联盟 企业号 3 月 PK 榜

2023最新版Java面试八股文大全PDF版限时分享,含700道高频面试题

Java你猿哥

Java ssm Java 面试 面经 春招

树莓派+阿里云IoT人脸识别场景实战——业务系统架构类

阿里云AIoT

Python JavaScript 物联网 对象存储 Web App开发

GPT-5 研发一年半进度堪忧!每轮 5 亿美金训练成本打水漂,还得雇人从头“造数据”_AI&大模型_罗燕珊_InfoQ精选文章