QCon 演讲火热征集中,快来分享技术实践与洞见! 了解详情
写点什么

OpenAI 狂打“骨折价”的一天:暴降成本开放全新 o1,实时 API 全面降价 60%

  • 2024-12-18
    北京
  • 本文字数:2301 字

    阅读完需:约 8 分钟

大小:1.14M时长:06:40
OpenAI狂打“骨折价”的一天:暴降成本开放全新o1,实时 API 全面降价 60%

整理 | 华卫

 

这几日,OpenAI 和谷歌俨然似打擂台般。就在昨天,ChatGPT 搜索功能再次大升级,向全球所有用户免费开放,有网友甚至直言“谷歌正式倒闭”。再往前一日,谷歌又放出最新版视频生成模型 VEO2,实测效果被许多人认为已“超越 Sora”。

 

今天,OpenAI 专门为开发人员推出了功能更强大的模型、新的定制工具以及可提高性能、灵活性和成本效益的升级,包括:

 

  • API 中的 OpenAI o1,支持函数调用、开发人员消息、结构化输出和视觉功能。

  • 实时 API 更新,包括简单的 WebRTC 集成、GPT-4o 音频降价 60% 以及以以前音频速率的十分之一支持 GPT-4o mini。

  • 偏好微调,这是一种新的模型定制技术,可根据用户和开发人员的偏好更轻松地定制模型。

  • 新的 Go 和 Java SDK 在 Beta 版中可用。

 

“对于开发者来说,这是迄今为止最有用的一天。”有网友表示。

 

API 用户可以访问新的 o1 模型

从今天开始,o1 将在 API 的第 5 使用层向开发人员推出。o1 是 OpenAI 的推理模型,旨在以更高的准确性处理复杂的多步骤任务,已经有开发人员在使用 o1-preview 构建代理应用程序,以简化客户支持、优化供应链决策和预测复杂的金融趋势。

 

作为 o1-preview 的后续版本,o1 具备了更多生产就绪的关键功能,可支持现实世界中的使用案例。其中包括,函数调用可将 o1 无缝连接到外部数据和 API;结构化输出能够生成可靠遵守自定义 JSON 架构的响应;开发人员消息即指定模型要遵循的说明或上下文,如定义语气、样式和其他行为指导;视觉功能指可以对图像进行推理,以解锁视觉输入很重要的科学、制造或编码中的更多应用。

 

对于给定请求,o1 比 o1-preview 平均少用 60% 的推理 tokens 。并且,新增的 API 参数“reasoning_effort ”允许用户控制模型在回答问题前的思考时间。

 

据介绍,OpenAI 刚发布的 o1 是两周前在 ChatGPT 中发布模型的新后训练版本,在几项基准测试中均取得了最新成果,并提高了成本效益和性能。此外,OpenAI 观察到, 其在函数调用和结构化输出测试中明显优于 o1-preview。

 


需要注意的是,开发人员要想访问第 5 使用层的 o1,必须在 OpenAI 上花费至少 1000 美元,并且拥有自首次成功付款以来超过 30 天的帐户。

 

对 实时 API 的改进

两个月前,OpenAI 发布了实时 API (Realtime API)的公开测试版,使开发者能够使用先进的语音到语音模型进行开发。据介绍,实时 API 是语音助手、实时翻译工具、虚拟导师、交互式客户支持系统的理想选择。

 

但当时有很多用户对其吐槽,“通往新时代的价格太贵了”。今天,OpenAI 宣布降低实时 API 的定价。

 

据介绍,由于提高了效率,实时 API 的音频 token 价格降低了 60%,为 40 美元/100 万个输入 token 和 80 美元/100 万个输出 token;缓存音频输入成本降低了 87.5%,降至 2.50 美元/100 万输入 token。

 

OpenAI 还将 GPT-4o mini 带入实时 API 测试版,GPT-4o mini 音频价格为 10 美元/100 万个输入 token,20 美元/100 万个输出 token;文本价格为 0.60 美元/100 万个输入 token 和 2.40 美元/100 万个输出 token;缓存音频和文本的价格均为 0.30 美元/100 万个 token。

 

并且,OpenAI 对实时 API 进行了多项更新,包括直接 WebRTC 集成以及更好地控制响应。

 

首先,OpenAI 将为实时 API 引入 WebRTC 支持。WebRTC 是一种开放标准,可以更轻松地跨平台构建和扩展实时语音产品,无论是基于浏览器的应用程序、移动客户端、IoT 设备还是服务器到服务器的直接设置。在 12 月初,OpenAI 聘请了 WebRTC 的创建者 Justin Uberti。

 

据介绍,WebRTC 集成专为在现实条件下实现流畅、灵敏的交互而设计,即使在网络质量不稳定的情况下也是如此,可以处理音频编码、流媒体、噪声抑制和拥塞控制。有了 WebRTC,现在只需几行 Javascript 就能添加实时功能。

 

此外,OpenAI 将向实时 API 提供以下功能,以便更轻松地提供卓越的语音驱动体验:

 

  • 并发带外响应,可在不中断用户语音交互的情况下运行内容审核或分类等后台任务。

  • 自定义输入上下文,用于指定将哪些对话项目作为模型输入。例如,只对用户的最后一句话进行审核检查,或在不永久改变会话状态的情况下重新使用过去的回复。

  • 受控的响应时间,可在不自动触发响应的情况下使用服务器端语音活动检测(VAD)。例如,在手动启动语音回复之前,收集必要的数据(如账户详细信息)并将其添加到模型的上下文中,从而对时间和准确性进行更多控制。

  • 增加最大会话时长,从 15 分钟增加到 30 分钟。

 

新的模型定制技术

今天,OpenAI 还向有兴趣微调 AI 模型的开发人员推出一种称为“偏好微调”的新方法,以便根据用户和开发人员的偏好轻松定制模型。并且,该方法将以与监督微调相同的价格提供,明年初还将支持 OpenAI 的最新模型。

 

这种方法使用直接偏好优化(DPO) 来比较成对的模型响应,让模型学会区分首选和非首选输出。通过成对比较而不是固定目标进行学习,偏好微调对语气、风格和创造性都很重要的主观任务尤为有效。

 

经过 OpenAI 的测试,到目前为止,已经看到偏好微调方法取得的可喜效果。据悉,Rogo AI 正在为金融分析师打造一款人工智能助手,可将复杂查询分解为子查询。他们使用专家构建的基准 Rogo-Golden 发现,虽然监督微调面临着分布外查询扩展的挑战,例如在查询 “X 公司的增长速度有多快 ”时缺少 ARR 等指标,但偏好微调解决了这些问题,将基本模型的准确率从 75%提高到 80%以上。

 

最后,除了现有的 Python、Node.js 和 .NET 官方库(在新窗口中打开)之外,OpenAI 还将在测试版中推出 Go(在新窗口中打开)和 Java(在新窗口中打开)两个新的官方 SDK。“我们的目标是让 OpenAI API 易于使用,无论用户选择哪种编程语言。”

 

参考链接:

https://openai.com/index/o1-and-new-tools-for-developers/

 

2024-12-18 12:008125

评论

发布
暂无评论
发现更多内容

掌握高性能计算前,我们先了解一下它的历史

华为云开发者联盟

华为云 高性能计算 处理器

为什么要开发分布式操作系统

LAXCUS分布式操作系统

分布式计算 分布式存储 超算 云边端协同 分布式操作

flutter系列之:UI layout简介

程序那些事

flutter 程序那些事 6月月更

推开混合云市场大门,Lenovo xCloud的破局之道

脑极体

自助洗车加盟具体都有哪些优势

共享电单车厂家

自助洗车加盟

传统企业在进行信息化升级的过程中,如何做好信息化顶层设计

BeeWorks

华为云鲲鹏DevKit代码迁移实战

乌龟哥哥

6月月更

直播预告 | 解构OLAP!新型多维分析架构范式全公开!Apache Doris 将带来五个重磅议题!

SelectDB

数据库 OLAP MPP Apaache Doris 直播活动

如何用Pygame制作简单的贪吃蛇游戏

行者AI

自助洗车加盟前要准备些什么吗

共享电单车厂家

自助洗车加盟 自助洗车品牌

想加盟自助洗车不知道一般啥流程

共享电单车厂家

自助洗车加盟

APICloud可视化开发新手图文教程

YonBuilder低代码开发平台

App APICloud 低代码开发 移动端开发 可视化开发

项目那么多为何要选择自助洗车

共享电单车厂家

自助洗车加盟

Flutter在数字生活的发展与天翼云盘落地实践

flutter 架构 混合应用开发 移动开发 客户端

攻防演练 | 网络安全“吹哨人”:安全监控

青藤云安全

网络安全 主机安全 攻防演练

数据的软删除—什么时候需要?又如何去实现?

Geek_rze78a

6月月更

【6.3-6.10】精彩博文回顾

InfoQ写作社区官方

优质创作周报

新思科技助力以色列Visuality Systems推进安全“左移”

InfoQ_434670063458

软件开发 代码 新思科技 安全测试 安全左移

图像搜索是什么

Geek_e369a5

图像搜索 图像搜索是什么

第二届征文大赛开奖啦!速来领奖!

InfoQ写作社区官方

热门活动 初夏征文

一文带你了解J.U.C的FutureTask、Fork/Join框架和BlockingQueue

华为云开发者联盟

Java 开发 华为云

2022 年 DevOps 路线图|Medium

观测云

Spark ShuffleManager

Geek_qsftko

大数据 spark

新思科技在《 2022 年 Gartner® 应用安全测试关键能力报告》中表现优异 在五个常见用例中荣获最高分

InfoQ_434670063458

新思科技 Gartner 应用安全测试

李飞飞:我更像物理学界的科学家,而不是工程师|深度学习崛起十年

OneFlow

人工智能 深度学习 李飞飞 ImageNet

APICloud 5月SDK发版说明

YonBuilder低代码开发平台

App 低代码 APICloud 可视化开发

Linux 之父亮相,OpenCloudOS 社区开放日来了

腾讯安全云鼎实验室

仅需三步学会使用低代码ThingJS与森数据DIX数据对接

ThingJS数字孪生引擎

可视化 数字孪生

搭建在线帮助中心,轻松帮助客户解决问题

小炮

改变世界的开发者丨玩转“俄罗斯方块”的瑶光少年

华为云开发者联盟

人工智能 华为云 俄罗斯方块

APICloud可视化开发丨一键生成专业级源码

YonBuilder低代码开发平台

App 低代码 可视化 APICloud 移动端开发

OpenAI狂打“骨折价”的一天:暴降成本开放全新o1,实时 API 全面降价 60%_AI&大模型_华卫_InfoQ精选文章