写点什么

OpenAI 官宣 o3 系列王者模型:能解最难的数学题,单个任务最高花费数千美元,越贵越好用!

  • 2024-12-21
    北京
  • 本文字数:3720 字

    阅读完需:约 12 分钟

大小:1.81M时长:10:32
OpenAI官宣o3系列王者模型:能解最难的数学题,单个任务最高花费数千美元,越贵越好用!

OpenAI 12 天的马拉松式发布活动,终于迎来了尾声。

 

在这长达两个多星期的系列发布期间,谷歌连续放出两款王炸大模型 Gemini 2.0 Flash 以及专攻推理的 Gemini 2.0 Flash Thinking,这种情况下,OpenAI 如果再不拿出点看家本领恐怕有些说不过去了。

 

在前几天无关痛痒的新功能推出后,人们都在期待 OpenAI 能放出点“猛料”。别急,“猛料”来了......

OpenAI 发布 o3 和 o3 mini 大模型

 

刚刚,OpenAI 宣布推出两款前沿模型:o3 和 o3-mini。它们是本月初刚刚全面发布的 o1 和 o1 mini 模型的继任者,更准确地说,o3 是一个像 o1 一样的模型系列,o3-mini 是一个更小、更精简的模型,针对特定任务进行了微调。OpenAI 正在慢慢邀请选定的用户测试这套新的推理模型。

 

早在今天直播之前,OpenAI CEO Sam Altman 就在 X 平台上发布推文暗示了新 AI 模型 GPT-o3 的发布。Altman 的推文中包含了“呵呵呵,明天见”和“找到线索,应该会说哦哦哦”等短语,暗示了 o3 模型即将发布。推文中“o”和“h”的反复使用被视为即将发布的预兆。



此次发布恰逢 OpenAI 的“OpenAI 12 天”活动的最后一天。在过去的 11 天里,OpenAI 发布了功能齐全的 o1 模型并推出了相关 API。此外,该公司还升级了各种功能,包括函数调用、结构化输出、推理工作量控制、开发人员消息传递和视觉输入功能。

 

“我们认为这是人工智能下一阶段的开始,你可以用这些模型来完成越来越复杂、需要大量推理的任务,”Altman 说。“在本次活动的最后一天,我们认为从一个前沿模型过渡到下一个前沿模型会很有趣。”

 

Altman 在直播中表示,公司计划在 1 月底发布 o3-mini,并在“此后不久”发布 o3。

 

值得一提的是,OpenAI 此次发布的新模型命名为 o3,而不是 o2,这又是为什么?据 The Information 报道,OpenAI 跳过 o2 是为了避免与英国电信提供商 O2 发生潜在冲突。Altman 在今天上午的直播中证实了这一点。Altman 表示,OpenAI“在命名方面一直很糟糕”。

o3 到底强在哪?

 

那么,o3 到底强在哪里?

 

在直播中,Altman 表示,o3 模型“在编码方面表现出色”,而且 OpenAI 分享的基准测试也支持它,甚至超过了 o1 在编程任务上的表现,具体数据如下:

 


  • 卓越的编码性能: o3 在 SWE-Bench Verified 上比 o1 高出 22.8 个百分点,并获得了 2727 的 Codeforces 评分,超过了 OpenAI 首席科学家的 2665 分。

  • 数学和科学掌握: o3 在 AIME 2024 考试中取得 96.7% 的成绩,仅缺席一道题,在 GPQA Diamond 考试中取得 87.7% 的成绩,远远超过人类专家的表现。

  • Frontier 基准测试:该模型在 EpochAI 的 Frontier Math 等具有挑战性的测试中创下了新纪录,解决了 25.2% 的问题,而其他模型的解决率均未超过 2%。在 ARC-AGI 测试中,o3 的得分是 o1 的三倍,超过 85%(经 ARC Prize 团队现场验证),代表了概念推理领域的一个里程碑。

 

在推理能力上 o3 也比以往有了非常大的改进。

 

与大多数人工智能不同,诸如 o3 之类的推理模型能够有效地自我核实事实,这有助于它们避免通常会绊倒模型的一些陷阱。

 

这种事实核查过程会产生一些延迟。与之前的 o1 一样,o3 需要更长的时间(通常要多几秒到几分钟)才能得出解决方案,而典型的非推理模型则不然。好处是什么?它在物理、科学和数学等领域往往更可靠。

 

o3 经过训练,可以在做出反应之前通过 OpenAI 所称的“私人思维链”进行“思考”。该模型可以推理任务并提前计划,在较长时间内执行一系列操作,帮助它找到解决方案。 

 

在实践中,给出一个提示后,o3 会在回答之前停顿一下,考虑一系列相关提示,并在此过程中“解释”其推理。一段时间后,该模型会总结出它认为最准确的答案。

 

o3 的新功能是能够“调整”推理时间。模型可以设置为低、中或高计算(即思考时间)。计算时间越长,o3 在任务上的表现就越好。

o3 系列模型加强了对安全和对齐的承诺

 

除了这些进步之外,OpenAI 还加强了对安全和协调的承诺。

 

Altman 表示,在 OpenAI 发布新的推理模型之前,他更希望有一个联邦测试框架来指导监控和降低此类模型的风险。

 

尽管 o3 已经非常先进了,但它也存在风险。人工智能安全测试人员发现,o1 的推理能力使其欺骗人类用户的概率比传统的“非推理”模型更高——或者说,比 Meta、Anthropic 和 Google 的领先人工智能模型更高。o3 欺骗的概率可能比其前身更高。

 

因此,OpenAI 表示,它正在使用一种新技术“审议性对齐”,使 o3 等模型与其安全原则保持一致。(o1 以相同的方式对齐。)该项技术还将在协调 o3 和 o3-mini 方面发挥关键作用,确保它们的能力强大而负责。 

业内如何评价 o3?

 

此次的 o3 系列模型的发布可谓赚足了眼球,因为 OpenAI 做出了一个惊人的声明:o3 至少在某些条件下接近 AGI——但也存在重大隐患。

 

AGI 是“通用人工智能”的缩写,泛指能够执行人类所能完成的任何任务的人工智能。但对于通用人工智能,OpenAI 有自己的定义:“在最具经济价值的工作上表现优于人类的高度自主系统。”

 

实现 AGI 将是一个大胆的宣言。而且这对 OpenAI 来说也具有非同凡响的意义。根据与密切合作伙伴和投资者微软的协议条款,一旦 OpenAI 实现 AGI,它就不再有义务让微软使用其最先进的技术(即符合 OpenAI AGI 定义的技术)。

 

但从一项基准测试来看,OpenAI 正在慢慢接近 AGI。

 

在 ARC-AGI(一项旨在评估 AI 系统是否能够有效地在其训练数据之外获得新技能的测试)中,o3 在高计算设置下获得了 87.5% 的分数。在最差的情况下(在低计算设置下),该模型的性能是 o1 的三倍。

 

当然,高计算设置的成本非常高——根据 ARC-AGI 联合创始人 Francois Chollet 的说法,每个任务的成本高达数千美元。

 


Francois Chollet 在 X 上发文称:“今天,OpenAI 宣布了其下一代推理模型 o3。我们与 OpenAI 合作在 ARC-AGI 上对其进行了测试,我们认为这代表了让 AI 适应新任务的重大突破。它在低计算模式下的半私有评估中得分为 75.7%(计算中每个任务 20 美元),在高计算模式下得分为 87.5%(每个任务数千美元)。它非常昂贵,但这不是在使蛮力——这些功能是新领域,需要认真的科学关注。”

 


那么,这就是 AGI 吗?Francois Chollet 表示:“虽然新模型非常令人印象深刻,代表着 AGI 道路上的一个重要里程碑,但我不认为这就是 AGI——仍有相当多的 ARC-AGI-1 任务 o3 无法解决,而且我们有早期迹象表明 ARC-AGI-2 对 o3 来说仍然极具挑战性。这表明,创建不饱和的、有趣的基准仍然是可行的,这些基准对人类来说很容易,但对人工智能来说却不可能完成——无需专业知识。只有当我们已经再也无法创建类似这种测评时,我们才算真的拥有 AGI。”

 

虽然,ARC-AGI 有其局限性——而且它对 AGI 的定义只是众多定义之一。但在其他基准测试中,o3 同样击败了竞争对手。

 

在专注于编程任务的基准 SWE-Bench Verified 上,o3 的表现比 o1 高出 22.8 个百分点,并获得了 Codeforces 评分(另一个衡量编码技能的标准)2727 分。(2400 分的评分使工程师处于 99.2 个百分点。)o3 在 2024 年美国数学邀请赛上得分为 96.7%,只错一道题,在 GPQA Diamond(一组研究生水平的生物学、物理学和化学问题)上得分为 87.7%。最后,o3 在 EpochAI 的 Frontier Math 基准上创下了新纪录,解决了 25.2% 的问题;其他模型都未超过 2%。

 

 

o3 模型的发布在 Reddit 论坛上引发了广泛讨论。有用户表示:

 

“Chollet 很客观地评价了这款模型,这应该具有重要意义。此外,无论 AGI 是如何定义的(当然,对于许多定义来说,这并不是定义),结果都必须得到承认。o3 现在在重要的、具有经济价值的认知任务中远远领先于其他模型。”

 

有看热闹不嫌事儿大的用户期待能有人将谷歌刚刚发布的 Gemini 2.0 Flash Thinking 模型和 o3 进行对比,该用户表示:

 

“根据他们的基准测试,o3 的表现远胜于 o1。我倒想看看它们在实际用例中的表现。我认为他们说的是,与 o1 和 o1-mini 相比,o3(至少是 API)的运行成本更低。期待他们与 Gemini Flash Thinking 的对比。激动人心的时刻即将到来……”

推理模型正成为大势所趋

 

OpenAI 发布首批推理模型后,包括谷歌在内的竞争对手 AI 公司纷纷推出了大量推理模型。

 

11 月初,国内 AI 研究公司 DeepSeek 发布了其首款推理模型 DeepSeek-R1的预览版。同月,阿里巴巴的通义千问团队发布了其声称是 o1 的第一个“公开”挑战者的产品。

 

那么,究竟是什么打开了推理模型的闸门?

 

首先,就是寻找改进生成式人工智能的新方法。因为大家逐渐发现,用于扩展模型的“蛮力”技术不再能带来像以前一样的重大技术突破。

 

然而,也并非所有人都相信推理模型是最佳的发展方向。首先,它们往往价格昂贵,因为运行它们需要大量的计算能力。尽管到目前为止,它们在基准测试中表现良好,但尚不清楚推理模型是否能保持这种进步速度。

 

有趣的是,o3 的发布正值 OpenAI 最有成就的科学家之一离职之际。Alec Radford 是 OpenAI 生成式 AI 模型“GPT 系列”(即 GPT-3、GPT-4 等)学术论文的主要作者,本周他宣布将离职从事独立研究。

 

最后,不得不说,作为全球顶级 AI 明星独角兽,OpenAI 技术先进是真,但比技术更先进的,或许是 Altman 高超的营销手段吧。

 

参考链接:

 

https://www.binance.com/en/square/post/12-20-2024-openai-ceo-hints-at-new-ai-model-gpt-o3-release-17819861054250

2024-12-21 07:0011278
用户头像
李冬梅 加V:busulishang4668

发布了 1054 篇内容, 共 667.3 次阅读, 收获喜欢 1214 次。

关注

评论 1 条评论

发布
用户头像
aren't they scared?mostly Aisan engineers, flooded with Aisan blood,probably have a communist granpa?
2024-12-27 13:18 · 浙江
回复
没有更多了
发现更多内容

Spring核心原理分析之MVC九大组件(1)

Tom弹架构

Java spring 源码

深入解析Apache Pulsar系列: Broker消息确认的管理

博文视点Broadview

公安重点人员动态预警管控系统建设,警务情指一体可视化决策系统

电微13828808271

【等保小知识】等保一级二级三级哪个要求更高?

行云管家

网络安全 等保 等级保护 等保20

云脑启智 开源赋能 | 2021新一代人工智能院士高峰论坛暨启智开发者大会顺利举办

OpenI启智社区

人工智能 院士峰会 启智社区

黑客实验环境的搭建与使用

喀拉峻

黑客 网络安全 环境配置 网络攻防 环境搭建

什么是立体车库?立体车库企业如何管理业务流程?

优秀

低代码 业务流程管理 立体车库

实践DDD的一种思路

安然

DDD CQRS

公安大数据合成作战平台建设,合成作战指挥中心平台开发

电微13828808271

如何以区块链技术为核心,渗透工业领域、支撑工业绿色发展

CECBC

作业三

施正威

1300亿次!百度地图发布生态全景3.0 日均位置服务请求次数再创新高

百度开发者中心

人工智能

为什么孩子会有拖延症?

Tiger

28天写作

CRM系统如何帮助企业改进销售流程

低代码小观

低代码 销售管理 CRM 无代码 CRM系统

🍃【Spring实战系列】「Web请求读取系列」如何构建一个可重复读取的Request的流机制

码界西柚

spring 12月日更 HttpRequestWrapper 请求处理

如何使用pFuzz以多种方法验证Web应用程序防火墙的安全性

H

网络安全 防火墙 信息安全

IAST 在去哪儿 Q-SDL 体系中的应用

火线安全

信息安全 DevSecOps IAST

教你用Camtasia简单几步制作精美片头

淋雨

Camtasia

百度王海峰:深耕自然语言处理近30年,推进AI融合创新

百度大脑

人工智能

区块链助力物流与供应链数字化

CECBC

Kafka版本概览

Kafka中文社区

可视化开发主流开源流程引擎与设计器研究对比

全象云低代码

低代码 流程 低代码开发 低代码平台 可视化软件

面对复杂微服务系统观测时,如何化繁为简?

尔达Erda

云计算 程序员 云原生 程序员微服务

Linux云计算这样学习效率更快,手把手带你实操结构化命令Case和for、while循环

学神来啦

Linux Shell linux运维 linux云计算 循环

遇到或问过的一些Spring面试题(持续更新)

Lazy

Java spring

全链路在线生产数据库压测利器:Apache ShardingSphere 影子库特性升级

SphereEx

开源 技术分享 ShardingSphere SphereEx 影子库

叮咚买菜自建MongoDB上云实践

MongoDB中文社区

mongodb

当游戏爱上MongoDB–参会赢Kindle!

MongoDB中文社区

mongodb

Dubbo框架学习笔记九

风翱

dubbo 12月日更

【MongoDB学习笔记】-使用 MongoDB 进行 CRUD 操作(下)

恒生LIGHT云社区

数据库 mongodb

重启iptables为啥内核参数不对了?

BUG侦探

Linux iptables

OpenAI官宣o3系列王者模型:能解最难的数学题,单个任务最高花费数千美元,越贵越好用!_OpenAI_李冬梅_InfoQ精选文章