写点什么

不发 GPT-5、直接上 GPT-6?曝 OpenAI 新模型代号 Orion,目标“杀死”幻觉

  • 2024-08-30
    北京
  • 本文字数:2833 字

    阅读完需:约 9 分钟

大小:1.33M时长:07:45
不发 GPT-5、直接上 GPT-6?曝 OpenAI 新模型代号 Orion,目标“杀死”幻觉

整理 | 华卫、核子可乐


昨日,有最新消息称,OpenAI 神秘的“草莓”(Strawberry)最早可能在今年秋季发布,并将在该项目的帮助下开发出能力全面超越 GPT-4 的最新大语言模型,其内部代号为 Orion,可以显著推动人工智能领域的发展。


据两名参与该项目的知情人士透露,OpenAI 最早要发布草莓的聊天机器人版本,并会作为 ChatGPT 的一部分功能推出。草莓的增强逻辑与推理能力可以使 AI 系统提前规划并具备深度研究能力,从而为后续能够实现复杂决策和任务执行的更多自主 AI 智能体铺平道路。


此外,草莓预计将负责生成高质量的合成训练数据,借此为 Orion 提供关键助力,这种方法有望减少错误并提高下一代模型的整体性能。


还有网友曝料称,Orion 将是 OpenAl  跳过 GPT-5 直接推出的 GPT-6 版本。



图源 @indigo:https://x.com/indigo11/status/1828565975844733145


GPT-4 继任者“Orion”开发中,目标:没有幻觉


数学是生成式 AI 发展的基础,如果 AI 模型掌握数学能力,将拥有更强的推理能力,甚至可以解决从未见过的数学问题或自发性解决变成问题,媲美人类智慧,而这一点也是目前的大语言模型还无法做到的。


据悉,草莓系统的目的是强化 OpenAI 的模型推理能力,处理复杂科学和数学问题的能力,让大模型不仅能生出答案,还能提前规划,以便自主、可靠浏览网络,进行 OpenAI 定义的深度研究。


知情人士透露,OpenAI 正在使用更大版本的草莓生成提供给 Orion 的训练用数据,这种由 AI 生成的训练数据也被称作“合成数据”(Synthetic Data)。与之前的模型相比,草莓与高质量合成数据的结合有望减少 Orion 的出错几率,有望帮助 OpenAI 提升获取高品质数据的能力。有研究表明,高质量数据正是打造强大且高效的 AI 模型的关键前提。


前不久,OpenAI 首席执行官 Sam Altman 的确公开强调了高质量数据对于训练 AI 模型的重要性。当时,Altman 还透露,目前 OpenAI 已有足够的数据来训练 GPT-4 之后的下一个模型,同时也在尝试使用合成数据。


对此,Minion AI 的首席执行官、GitHub Copilot 的前首席架构师 Alex Graveley 表示,使用草莓产生更高质量的训练数据可以帮助 OpenAI 减少其模型产生的错误数量,也就是所谓的 AI 幻觉(Hallucination)。“想象一下‘没有幻觉的模型’,你问它一个逻辑难题,它第一次就答对了。之所以能够做到这一点,是因为训练数据中的模糊性更少,因此它的猜测更少。”Graveley 进一步解释。


草莓模型已向美国官员展示,完整版不对外开放


草莓项目的前身为 Q*,自去年秋天开始流传 OpenAI 可能取得更大突破以来,就一直是 AI 社区的猜测话题。当时据说, Q* 能够解决棘手的科学和数学问题,并很快被贴上了秘密 AGI 项目的标签。之后,Altman 又间接证实了 Q* 的存在,对外称这是一次 “不幸的泄密”。


知情人士表示,草莓旨在解决大模型以往未曾见过的数学问题并优化编程任务,其增强逻辑还有望使其在拥有充足“思考”时间的情况下,更加有效地解决与语言相关的挑战。


在内部演示中,草莓成功拼出了《纽约时报》上刊登的字谜“Connections”。该模型还可为其他更先进的 AI 系统提供支撑,帮助其在生成内容的同时还可采取操作行动。OpenAI 还在内部文件中描述了使用草莓模型实现互联网自主搜索的计划,希望让 AI 掌握提前规划和深入研究的能力。


此外,之前有外媒报道,OpenAI 已经对一款在 MATH 基准测试中得分超过 90% 的 AI 模型进行了内测。MATH 基准测试是一系列冠军级数学问题,包含高中生和大学生数学竞赛的问题,被视作衡量 AI 系统在解决复杂数学问题方面的性能基准。相比之下,最初的 GPT-4 得分约为 53%,而 GPT-4o 的得分为 76.6%。


而最新消息称,这一分数高于 90% 的模型很可能就是草莓,今年夏天 OpenAI 还向美国国家安全官员展示了草莓模型。考虑到安全问题,这款强大的模型不直接对公众提供服务,以防止被美国限制的国家拿它来合成数据训练更强大的模型。


OpenAI 会在草莓的基础上提供一个更小的蒸馏版对外提供服务,这样部署成本也更低,完整的草莓会被该公司内部用来生成高质量的合成数据。有网友评价道,“好货当然先留给自己用,确保竞争对手与自己有隔代差别。”也有网友猜测,“肉眼可见 OpenAI 需要靠美国政府提供资金了,因为已经无法从市场上筹集到足够的资金了。”


另值得一提的是,草莓系统的诞生与 OpenAI 前首席科学家 Ilya Sutskever 和斯坦福大学都有所关联。


据说,草莓这个项目算是由 Ilya 启动的,也是他为草莓提供了设计思路和基础。在他离开之前,OpenAI 的研究人员 Jakub Pachocki 和 Szymon Sidor 基于 Sutskever 的工作开发了 Q*。现在他出走并建立自己的初创企业 Safe SuperIntelligence,专注于开发更安全的超级 AI。


在 Q* 的研究过程中,OpenAI 的研究人员开发了一种被称为「测试时计算」(test-time computation)的概念变体,该方法使模型有机会花更多时间考虑用户命令或问题的所有部分,旨在提升大语言模型的解题能力。当时,Ilya 还发表了一篇围绕相关成果的博客文章。


还有报道指出,草莓系统与斯坦福大学研究人员提出的“自学推理机”(STaR)方法有着相似之处,都旨在提高人工智能的推理和问题解决能力,使其超越 GPT-4 等现有语言模型所能达到的水平。


思路上,这两种方法都是教人工智能一步一步地 “推理 ”或 “思考”来得出更好的解决方案,Quiet-STaR 教语言模型生成并学习在文本中任何位置继续的可能理由,而 Q* 则旨在将语言模型与规划算法相结合。另一个类似的方面是测试时计算(test-time computation)的重要性:无论是在 Quiet-STaR 还是在 Q* 中,都是人工智能思考的时间越长,结果就越好。


据悉,草莓模型是否会在今年年内推出尚不确定,但最初发布的应该是原始模型的精简版本,强调以更少的算力消耗提供类似的性能。自 2023 年 3 月原始模型发布以来,OpenAI 也曾利用这项技术降低 GPT-4 各变体的运行门槛。


结语


按照 OpenAI 的猜想,未来 AI 会经历聊天机器人(具有对话语言的人工智能)、推理者(人类水平的问题解决)、代理者(可以采取行动的系统)、创新者(可协助发明的人工智能)、组织者(可以完成组织工作的人工智能)共 5 个阶段,而草莓系统极有可能是帮助其实现第二级 AI(推理者,人类层级的问题解决)的关键。


由于推理能力限制,目前 AI 技术在诸如航天、结构工程之类的数学密集型行业中并没有广泛应用。因此,大模型数学推理能力的最佳化成为普及 AI 应用的必备条件,也是 AI 公司进一步提升获利能力的必经之路。


谷歌 DeepMind 同样在研究具备高级数学能力的 AI 系统。他们先后开发出 AlphaProof 与 ALphaGeometry 2,后者还在国际数学奥林匹克竞赛中斩获银牌。然而,目前仍不清楚这些模型的扩展与推广效果究竟如何。


参考链接:


https://the-decoder.com/openais-strawberry-ai-is-reportedly-the-secret-sauce-behind-next-gen-orion-language-model/


https://www.theinformation.com/articles/openai-shows-strawberry-ai-to-the-feds-and-uses-it-to-develop-orion


https://news.cnyes.com/news/id/5698787

2024-08-30 14:528489

评论

发布
暂无评论
发现更多内容

连接未来 驱动创新|腾讯云 CODING DevOps 主题沙龙诚邀您的参与

CODING DevOps

火山引擎云调度GTM“同城容灾”与“异地多活”实践

火山引擎边缘云

容灾 容灾备份 容灾多活

单集群1万节点!腾讯云大数据平台TBDS获得分布式批处理平台万节点能力认证

腾讯云大数据

TBDS

如何使用图形数据库构建实时推荐引擎

3D建模设计

数据分析 数据工程

当高并发来袭:StarRocks Query Cache 一招搞定!

StarRocks

数据库 后端 高并发 StarRocks 湖仓一体

对 JDK8 新出的Optional类的探索与思考

emanjusaka

Java jdk 后端

【高危】致远A8前台上传解压漏洞 (MPS-6tdh-8qpu)

墨菲安全

网络安全 漏洞 致远

精彩回顾 | CommunityOverCode Asia 圆满落幕

Apache IoTDB

企业新业务拓展,云耀云服务器L实例能否助其进行快速开发

YG科技

ARTS 打卡第 2 周

小样

ARTS 打卡计划

生态共建 | 5-6月,YashanDB与14款产品完成兼容互认证

YashanDB

YashanDB获强制性国家标准GB 18030-2022最高级别认证

YashanDB

低代码开发平台能开发什么类型的系统和软件?

优秀

低代码开发平台

演讲分享 | 从“淄博模式”,看面向未来的数据库创新和发展方向

YashanDB

速来围观数据库发展新的打开方式!

YashanDB

数据库

制造业为什么要数字化?

优秀

制造业数字化

中小企业建站,采购云服务器上需注意什么?

YG科技

初创公司预算有限,在云服务器选择上应该如何选择?

YG科技

业务系统架构实践总结

阿里技术

系统架构 实践 业务

第二期YCA认证培训圆满结束!

YashanDB

精进语言模型:探索LLM Training微调与奖励模型技术的新途径

汀丶人工智能

自然语言处理 强化学习 深度强化学习 LLM模型

服务质量不能掉链子,中小企业采购云服务器为何更要选择大厂?

YG科技

生态共建丨YashanDB与构力科技完成兼容互认证

YashanDB

机器学习会取代数据科学吗?

3D建模设计

机器学习

使用大型语言模型进行自主视觉信息搜索

3D建模设计

LLM 大语言模型

AIGC如何借AI Agent落地?TARS-RPA-Agent破解RPA与LLM融合难题

王吉伟频道

RPA AIGC autogpt AI大语言模型 AI Agent

使用 OpenAI GPT 模型的最佳实践

3D建模设计

人工智能 openai GPT

【严重】Smartbi windowUnloading 限制绕过导致远程代码执行 (MPS-e2z8-wdi6)

墨菲安全

网络安全 漏洞

【高危】WPS Office 远程代码执行漏洞(WPSSRC-2023-0701绕过) (MPS-qjky-hw9x)

墨菲安全

网络安全 漏洞 WPS Office

CloudEon入选开源中国最有价值开源项目(GVP)

CloudEon开源

利用 XGBoost 进行时间序列预测

3D建模设计

机器学习

不发 GPT-5、直接上 GPT-6?曝 OpenAI 新模型代号 Orion,目标“杀死”幻觉_生成式 AI_华卫_InfoQ精选文章