写点什么

OpenAI 官宣旗舰模型 GPT-4o,完全免费、无障碍与人交谈!奥特曼:这是我们最好的模型

  • 2024-05-14
    北京
  • 本文字数:2433 字

    阅读完需:约 8 分钟

大小:1.20M时长:07:00
OpenAI 官宣旗舰模型 GPT-4o,完全免费、无障碍与人交谈!奥特曼:这是我们最好的模型

上周,关于 OpenAI 即将发布重大更新的报道层出不穷。有报道称,ChatGPT 制造商 OpenAI 计划通过推出 Google 搜索的竞争对手来增强聊天机器人的功能并开拓新市场。报道还称,这款新搜索产品可能会在 5 月 13 日 Google I/O 大会前一天发布。不过 Altman 否认了此类传言。


甚至还顺势在 X 上的一篇帖子中写道,“不是 GPT-5,也不是搜索引擎,但我们一直在努力开发一些我们认为人们会喜欢的新东西!对我来说就像魔法一样。”



就在刚刚,OpenAI 官宣了 Altman 口中的“就像魔法一样”的东西。

OpenAI 官宣旗舰款模型 GPT-4o,完全免费

在发布会刚开始,OpenAI 就发布了一款名为 GPT-4o 的新旗舰生成式人工智能模型,该模型将在未来几周内在公司的产品中“迭代”推出。


OpenAI 首席技术官 Muri Murati 表示,GPT-4o 提供了“GPT-4 级别”的智能,但改进了 GPT-4 在文本、视觉以及音频方面的能力。



“GPT-4o 通过语音、文本和视觉进行推理,”Murati 在 OpenAI 办公室的主题演讲中说道。为了让其更加智能,OpenAI 团队在语音模式背后添加了新技术,人们可以用麦克风与 ChatGPT 交谈。


OpenAI 之前的领先模型 GPT-4 接受了图像和文本组合的训练,可以分析图像和文本以完成从图像中提取文本甚至描述这些图像内容等任务。


GPT-4o 不仅可以将语音转换为文本,还可以理解和标记音频的其他功能,例如呼吸和情感。此外,GPT-4o 具有先进的音频理解能力,并且可以控制其声音(听起来像机器人、声音兴奋、舒缓等)。


虽然这背后的更多技术细节没有公布出来,但 OpenAI 表示,现在 GPT-4o 在 50 种语言中的速度更快,也许使用的技术与他们在 GPT-4 上加速日语的技术相同。借助 GPT-4o/ChatGPT 桌面应用程序,用户可以有个编程伙伴一起交谈,并看到您所看到的内容。


此外,OpenAI 正在发布 ChatGPT 的桌面版本和更新的 UI。


OpenAI 研究员 William Fedus 表示,“GPT-4o 是我们最先进的新前沿模型。我们一直在 LMSys arena 上测试一个版本 im-also-a-good-gpt2-chatbot。”



“这不仅是世界上最好的模型,而且可以在 ChatGPT 中免费使用,这对于前沿模型来说是前所未有的。” Fedus 补充道,“我们发现在更难的提示集上——特别是编码——存在更大的差距:GPT-4o 比我们之前的最佳模型实现了 +100 ELO。”



奥特曼在推特里也表示,“GPT-4o 是我们最好的模型。”



另外,在 API 中,GPT-4o 的价格是 GPT-4-turbo 的一半,速度是 GPT-4-turbo 的两倍、5 倍速率限制。


通常,当 OpenAI 宣布其 ChatGPT 模型的新版本时,都会对特定付费用户开放。然而,此次是个例外,该公司已决定允许所有人使用这项新技术。

GPT-4o 可以像人类一样与你交谈,还能解方程式

一直以来,OpenAI 希望与 ChatGPT 交谈就像与真人交谈一样,但遗憾的是之前 ChatGPT 的反馈总是有些延迟,这就破坏了交谈的沉浸感。现在,该公司正在 GPT-4o 背后添加新技术,以使与聊天机器人的对话速度更快。


为了展示这一点,OpenAI 使用语音与 GPT-4o 进行了对话演示。GPT-4o 不仅在演示者结束讲话后几乎立即做出响应,而且还通过文本转语音进行响应,让您感觉就像在与某人实时交谈。在演示过程中,GPT-4o 指导演示者 Mark Chen 如何更好地呼吸;包括采集他的呼吸音频样本,并为他提供如何做得更好的建议。


另一位演示者展示了 GPT-4o 在提示“机器人和爱”的情况下讲睡前故事。故事进行到一半时,OpenAI 开发人员 Mark Chen 介入并要求 GPT-4o 调整它说话时的情绪。果然,GPT-4o 可以根据要求改变声音,从过于戏剧化的表演到冷漠、机械的语气。最后,他们展示了 GPT-4o 的一些歌唱能力来完善这个故事。



此外,此次发布会上演示者们还展示了 GPT-4o 在数学方面的“才能”。演示者写出了一个方程式并通过手机摄像头展示了 GPT-4o。它被指示帮助解决问题,但不泄露答案。果然,GPT-4o 指导演示者完成了求解简单方程的过程,几乎扮演了教师的角色。另外,它甚至还回答了典型的“我什么时候才能在现实生活中使用它?”问题,解释二次方程如何帮助我们完成日常任务。


演示者还使用桌面版 GPT-4o 来检查他们拥有的一些代码。GPT-4o 不仅可以解释代码的作用,还可以告诉您如果调整代码的特定部分会发生什么。

此前猜测全部落空

AIGC 赛道过去一年“卷疯了”似乎成为了业界共识,众多公司推出了自己的 AI 聊天机器人,谷歌的 Gemini、Anthropic 的 Claude 和 X 的 GrokAI 等竞争对手都在从 OpenAI 这里抢走更多关注。



这次发布会之前,网上对 OpenAI 的发布内容充满猜测:Abacus.AI CEO 猜测,新的 Siri 将来自 OpenAI,更具体地,有网友表示是 ChatGPT iOS 中的对话模式;英伟达高级人工智能研究科学家 Jim Fan 表示,“预计 OpenAI 明天将演示实时语音助手。”;有网友说是“Google 级别的抓取和每日模型更新”。


还有网友 Ananay 表示“OpenAI 似乎正在致力于在 ChatGPT 内进行电话通话,或者至少提供某种程度的实时通信,而不仅仅是文本。这可能只是周一宣布的活动的一小部分。”他甚至表示,“OpenAI 现在已经部署了 webRTC 服务器来实现这一点,并且最近配置了这些服务器。”


这是一个开源项目,用于在应用程序内提供实时通信 - 例如语音和视频会议。这可能是 ChatGPT 代理行为的一部分。有了这个,你就可以向人工智能发出指令,让它启动并代表你执行操作——给予它呼叫访问权限可以让它打电话预约或处理来电,而无需你参与。



Altman:每年烧掉 500 亿美元我都不在乎

值得注意的是,Sam Altman 最近在接受媒体采访时表示,他将不惜一切代价致力于构建通用人工智能 (AGI)。在与斯坦福大学的学生互动时,Altman 表示,开发 AGI 的任何成本都是合理的。


据《财富》杂志报道,他表示:“OpenAI 可能有比我更有商业头脑的人担心我们的支出,但我并不这么认为。”


“无论我们每年烧掉 5 亿美元、50 亿美元还是 500 亿美元,我都不在乎,我真的不在乎,只要我们能保持在一条轨道上,我认为最终我们会为社会创造比这更多的价值,只要我们能找到一种方法来支付账单,就像我们制造通用人工智能一样,这将是昂贵的,但完全值得,”他补充道。

2024-05-14 02:357436
用户头像
李冬梅 加V:busulishang4668

发布了 1059 篇内容, 共 673.9 次阅读, 收获喜欢 1219 次。

关注

评论

发布
暂无评论
发现更多内容

文本识别与检测-【技术白皮书】第三章-第二节: 基于分割的场景文本检测方法

合合技术团队

人工智能 神经网络 文字识别 自然语言理解

分布式事务-引出分布式事务

zarmnosaj

10月月更

SAP | abap的数据对象

暮春零贰

SAP 10月月更 数据对象

打破汽车零部件企业供应链壁垒,数商云SCM供应链系统实现一体化采购协同

数商云

数字化转型 供应链 企业数字化

知识经济时代,企业该如何进行知识管理?

Baklib

效率工具 知识管理 企业 知识 知识经济

【Java深入学习】一个关于“锁”的程序-上

Geek_65222d

10月月更

技术使用点-mixins的使用

默默的成长

前端 Vue 3 10月月更

30+场技术论坛 1000+科技新品发布 今年云栖大会我们关注什么?

阿里技术

云栖大会

Kubernetes fror Flink 硬气功实践

CTO技术共享

flink 个人成长 10月月更

长安链源码分析之网络模块 net-liquid(6)

手把手完成智慧路灯的开发,完成设备上云【华为云IoT】

DS小龙哥

10月月更

工作四年,靠这份Java面试宝典,跳槽到阿里,月薪直涨12K

收到请回复

Java 面试 语言 & 开发 金九银十

分析服务用多维度、多场景的用户分层,带您深度玩转精细化游戏运营

HarmonyOS SDK

分析

EMQ x 阿里云:云上高效构建,IoT 数据一站处理|直播预告

阿里云弹性计算

物联网 IoT 计算巢

外包和自研应该选择呢?教你三招选出最合适自己的平台

千锋IT教育

ERP外贸管理系统是什么?哪家好?如何选?

优秀

外贸管理 ERP系统 ERP外贸管理系统

团队实现知识管理,先从知识库做起!

Baklib

效率 效率工具 知识管理 团队 知识

秒云入选2022年成都市新经济梯度培育企业

MIAOYUN

成都市新经济梯度培育企业

ElasticSearch + Kibana for Kubernetes 硬气功实践 2

CTO技术共享

elasticsearch 个人成长 10月月更

navicat的使用与数据库的DML操作

渔戈

MySQL SQL语句 10月月更

邂逅Vue3

渔戈

前端 Vue3 10月月更

华为架构师亲手操刀,世界五百强都在用的kafka也就那么回事

程序知音

Java kafka 架构 后端技术

Vue3的基本指令

渔戈

前端 Vue3 10月月更

NFT卡牌链游系统开发Web3游戏技术

薇電13242772558

dapp web3

长安链源码分析之网络模块 net-liquid(7)

SUSE 推出业界首个自适应 Linux 平台原型

Anthony

Linux 自适应

戴尔Precision 3660工作站:设计师手里的金刚钻

科技热闻

vivo 鲁班平台 RocketMQ 消息灰度方案

阿里巴巴云原生

阿里云 云原生 Apache RocketMQ

真·workshop,来自联通、移动、爱奇艺等14位资深专家与你面对面聊云原生硬核技术|2022云栖大会

OpenAnolis小助手

云原生 虚拟化 云栖大会 龙蜥社区 专场

开源日志收集 肿么选型??

CTO技术共享

个人成长 log 10月月更

手把手教你成为荣耀开发者:如何进行注册与认证?

荣耀开发者服务平台

开发者 手机 新手指南 荣耀 honor

OpenAI 官宣旗舰模型 GPT-4o,完全免费、无障碍与人交谈!奥特曼:这是我们最好的模型_生成式 AI_李冬梅_InfoQ精选文章