写点什么

OpenAI 狂打“骨折价”的一天:暴降成本开放全新 o1,实时 API 全面降价 60%

  • 2024-12-18
    北京
  • 本文字数:2301 字

    阅读完需:约 8 分钟

大小:1.14M时长:06:40
OpenAI狂打“骨折价”的一天:暴降成本开放全新o1,实时 API 全面降价 60%

整理 | 华卫

 

这几日,OpenAI 和谷歌俨然似打擂台般。就在昨天,ChatGPT 搜索功能再次大升级,向全球所有用户免费开放,有网友甚至直言“谷歌正式倒闭”。再往前一日,谷歌又放出最新版视频生成模型 VEO2,实测效果被许多人认为已“超越 Sora”。

 

今天,OpenAI 专门为开发人员推出了功能更强大的模型、新的定制工具以及可提高性能、灵活性和成本效益的升级,包括:

 

  • API 中的 OpenAI o1,支持函数调用、开发人员消息、结构化输出和视觉功能。

  • 实时 API 更新,包括简单的 WebRTC 集成、GPT-4o 音频降价 60% 以及以以前音频速率的十分之一支持 GPT-4o mini。

  • 偏好微调,这是一种新的模型定制技术,可根据用户和开发人员的偏好更轻松地定制模型。

  • 新的 Go 和 Java SDK 在 Beta 版中可用。

 

“对于开发者来说,这是迄今为止最有用的一天。”有网友表示。

 

API 用户可以访问新的 o1 模型

从今天开始,o1 将在 API 的第 5 使用层向开发人员推出。o1 是 OpenAI 的推理模型,旨在以更高的准确性处理复杂的多步骤任务,已经有开发人员在使用 o1-preview 构建代理应用程序,以简化客户支持、优化供应链决策和预测复杂的金融趋势。

 

作为 o1-preview 的后续版本,o1 具备了更多生产就绪的关键功能,可支持现实世界中的使用案例。其中包括,函数调用可将 o1 无缝连接到外部数据和 API;结构化输出能够生成可靠遵守自定义 JSON 架构的响应;开发人员消息即指定模型要遵循的说明或上下文,如定义语气、样式和其他行为指导;视觉功能指可以对图像进行推理,以解锁视觉输入很重要的科学、制造或编码中的更多应用。

 

对于给定请求,o1 比 o1-preview 平均少用 60% 的推理 tokens 。并且,新增的 API 参数“reasoning_effort ”允许用户控制模型在回答问题前的思考时间。

 

据介绍,OpenAI 刚发布的 o1 是两周前在 ChatGPT 中发布模型的新后训练版本,在几项基准测试中均取得了最新成果,并提高了成本效益和性能。此外,OpenAI 观察到, 其在函数调用和结构化输出测试中明显优于 o1-preview。

 


需要注意的是,开发人员要想访问第 5 使用层的 o1,必须在 OpenAI 上花费至少 1000 美元,并且拥有自首次成功付款以来超过 30 天的帐户。

 

对 实时 API 的改进

两个月前,OpenAI 发布了实时 API (Realtime API)的公开测试版,使开发者能够使用先进的语音到语音模型进行开发。据介绍,实时 API 是语音助手、实时翻译工具、虚拟导师、交互式客户支持系统的理想选择。

 

但当时有很多用户对其吐槽,“通往新时代的价格太贵了”。今天,OpenAI 宣布降低实时 API 的定价。

 

据介绍,由于提高了效率,实时 API 的音频 token 价格降低了 60%,为 40 美元/100 万个输入 token 和 80 美元/100 万个输出 token;缓存音频输入成本降低了 87.5%,降至 2.50 美元/100 万输入 token。

 

OpenAI 还将 GPT-4o mini 带入实时 API 测试版,GPT-4o mini 音频价格为 10 美元/100 万个输入 token,20 美元/100 万个输出 token;文本价格为 0.60 美元/100 万个输入 token 和 2.40 美元/100 万个输出 token;缓存音频和文本的价格均为 0.30 美元/100 万个 token。

 

并且,OpenAI 对实时 API 进行了多项更新,包括直接 WebRTC 集成以及更好地控制响应。

 

首先,OpenAI 将为实时 API 引入 WebRTC 支持。WebRTC 是一种开放标准,可以更轻松地跨平台构建和扩展实时语音产品,无论是基于浏览器的应用程序、移动客户端、IoT 设备还是服务器到服务器的直接设置。在 12 月初,OpenAI 聘请了 WebRTC 的创建者 Justin Uberti。

 

据介绍,WebRTC 集成专为在现实条件下实现流畅、灵敏的交互而设计,即使在网络质量不稳定的情况下也是如此,可以处理音频编码、流媒体、噪声抑制和拥塞控制。有了 WebRTC,现在只需几行 Javascript 就能添加实时功能。

 

此外,OpenAI 将向实时 API 提供以下功能,以便更轻松地提供卓越的语音驱动体验:

 

  • 并发带外响应,可在不中断用户语音交互的情况下运行内容审核或分类等后台任务。

  • 自定义输入上下文,用于指定将哪些对话项目作为模型输入。例如,只对用户的最后一句话进行审核检查,或在不永久改变会话状态的情况下重新使用过去的回复。

  • 受控的响应时间,可在不自动触发响应的情况下使用服务器端语音活动检测(VAD)。例如,在手动启动语音回复之前,收集必要的数据(如账户详细信息)并将其添加到模型的上下文中,从而对时间和准确性进行更多控制。

  • 增加最大会话时长,从 15 分钟增加到 30 分钟。

 

新的模型定制技术

今天,OpenAI 还向有兴趣微调 AI 模型的开发人员推出一种称为“偏好微调”的新方法,以便根据用户和开发人员的偏好轻松定制模型。并且,该方法将以与监督微调相同的价格提供,明年初还将支持 OpenAI 的最新模型。

 

这种方法使用直接偏好优化(DPO) 来比较成对的模型响应,让模型学会区分首选和非首选输出。通过成对比较而不是固定目标进行学习,偏好微调对语气、风格和创造性都很重要的主观任务尤为有效。

 

经过 OpenAI 的测试,到目前为止,已经看到偏好微调方法取得的可喜效果。据悉,Rogo AI 正在为金融分析师打造一款人工智能助手,可将复杂查询分解为子查询。他们使用专家构建的基准 Rogo-Golden 发现,虽然监督微调面临着分布外查询扩展的挑战,例如在查询 “X 公司的增长速度有多快 ”时缺少 ARR 等指标,但偏好微调解决了这些问题,将基本模型的准确率从 75%提高到 80%以上。

 

最后,除了现有的 Python、Node.js 和 .NET 官方库(在新窗口中打开)之外,OpenAI 还将在测试版中推出 Go(在新窗口中打开)和 Java(在新窗口中打开)两个新的官方 SDK。“我们的目标是让 OpenAI API 易于使用,无论用户选择哪种编程语言。”

 

参考链接:

https://openai.com/index/o1-and-new-tools-for-developers/

 

2024-12-18 12:001

评论

发布
暂无评论

WPF学习——依赖项属性(2)(1)

Java 程序员 后端

ZK(ZooKeeper)分布式锁实现

Java 程序员 后端

“抽象类”到底抽不抽象?实例对比一看便知!

Java 程序员 后端

《JVM系列》 第六章 -- 对象的实例化与内存布局

Java 程序员 后端

【Java 基础语法】万字解析 Java 的多态、抽象类和接口

Java 程序员 后端

全面通透深入剖析工厂方法模式

Tom弹架构

Java 架构 设计模式

【Java从0到架构师】Maven

Java 程序员 后端

【Java核心面试宝典】Day3、图解HashMap高频面试及底层实现架构!

Java 程序员 后端

ZooKeeper分布式配置——看这篇就够了

Java 程序员 后端

【Java从0到架构师】SQL 多表查询

Java 程序员 后端

【Java每日面试题】大厂是如何设计秒杀系统的?

Java 程序员 后端

过等保选择云堡垒机还是硬件堡垒机比较好?

行云管家

网络安全 云服务 堡垒机 等级保护

营口市广东商会成立

江湖老铁

「并发原理专题」AQS的技术体系之CLH、MCS锁的原理及实现

Java 程序员 后端

YGC问题排查,又让我涨姿势了!

Java 程序员 后端

《Spring实战》读书笔记-第4章 面向切面的Spring(1)

Java 程序员 后端

《菜菜的机器学习sklearn课堂》降维算法PCA和SVD

Java 程序员 后端

【C 语言小游戏】手打贪吃蛇1

Java 程序员 后端

【Java 多线程 1】CountDownLatch

Java 程序员 后端

WPF学习——依赖项属性(2)

Java 程序员 后端

架构实战营-模块三作业

随风King

「架构实战营」

【Java知识点详解 7】装箱和拆箱

Java 程序员 后端

Zookeeper(从7个方面来了解Zookeeper基础概念)

Java 程序员 后端

[译] 微服务的设计模式

Java 程序员 后端

《吃透MQ系列》核心基础全在这里了,一文啃透!

Java 程序员 后端

《JVM系列》 第六章 -- 对象的实例化与内存布局(1)

Java 程序员 后端

《Spring实战》读书笔记-第4章 面向切面的Spring

Java 程序员 后端

《代码重构》之方法到底多长算“长”

Java 程序员 后端

《重学Java高并发》Disruptor使用实战

Java 程序员 后端

【Java 集合框架】Stack、Queue 和 Deque 的使用

Java 程序员 后端

公有云是什么意思?其存在的意义是什么?

行云管家

云计算 公有云 私有云 混合云

OpenAI狂打“骨折价”的一天:暴降成本开放全新o1,实时 API 全面降价 60%_AI&大模型_华卫_InfoQ精选文章