写点什么

OpenAI 版 Her 登场,GPT 能实时视频通话了!德扑 AI 之父:比 o1“更受宠”的模式降临

  • 2024-12-13
    北京
  • 本文字数:1968 字

    阅读完需:约 6 分钟

大小:965.08K时长:05:29
OpenAI版Her登场,GPT能实时视频通话了!德扑AI之父:比 o1“更受宠”的模式降临

整理 |华卫

 

昨天 OpenAI 的风头几乎都被谷歌抢尽了,不少用户都直接站队 Gemini 2.0 ,称其是“GPT-5 级别的威胁”,不仅能生成文字外,还能直接生成图片和语音。更为关键的是,Gemini 2.0 供全球用户使用,而且有专门的实验版模型对所有开发者免费开放。

 

今天,OpenAI 就带来了高级语音模式的功能更新:实时视频通话、屏幕共享和图像上传。即日起,这三项功能将在接下来几天内向所有 Team、以及大多数 ChatGPT Plus 和 Pro 用户推出(欧盟、瑞士、冰岛、挪威和列支敦士登的用户除外),Enterprise 和 Edu 用户将在明年 1 月获得访问权限。其中,屏幕共享和图片上传仅在 iOS 和 Android 移动应用程序的高级语音模式中推出。

 

现在 ChatGPT 可以“看到和听到”

高级语音模式在去年发布的 GPT-4o 中已经预览过,但只有音频模式是实时的。现在,用户可以使用手机摄像头与 ChatGPT 聊天,大模型将会 “看到 ”你所看到的一切,包括你的手机屏幕。

 

进行实时视频通话功能的演示时,OpenAI 的首席产品官 Kevin Weil 首先牵头测试了一番 ChatGPT 的“记忆”能力。在 OpenAI 的团队成员依次与 ChatGPT 视频打过招呼并有了一定的认识后,Weil 要求它回忆各位成员的特征并说出相应的姓名。

 

接下来, Weil 又和其他 OpenAI 团队成员演示了 ChatGPT 协助如何制作手冲咖啡:通过将摄像机对准动作,AVM 展示了它对咖啡机原理的理解,并引导提问者完成咖啡的整个冲泡过程。并且,在整个演示过程中,ChatGPT Advanced Voice 保持了自然而亲切的声音,还调整了它的语气,甚至像人类一样大笑。

 

有网友开玩笑道,“下一步 GPT 该指导人做饭了。”还有网友表示,“Her 正在慢慢成为现实”,“如果这不是 AGI,我不知道什么是。”

 


该团队还展示了 ChatGPT 如何理解上传的屏幕截图,这对于需要 ChatGPT 提供技术支持或协助处理屏幕内容的情况非常有用。当选择 “共享屏幕 ”时,会弹出手机的屏幕共享选项,允许用户将屏幕广播给 ChatGPT;开始屏幕共享后,再次按下屏幕共享按钮即可停止与 ChatGPT 共享屏幕。

 

同时,OpenAI 官方提醒到,ChatGPT 可能会自动响应用户从相机或屏幕上分享的内容。此外,在用户停止分享后,ChatGPT 可能仍会引用其之前在对话中分享的内容。但 OpenAI 保证,除非用户启用了“为每个人改进模型”,否则他们不会使用对话中上传的音频或视频片段来训练大模型。

 

比 o1“更受欢迎”的模式来了?

高级语音模式基于原生多模态 GPT-4o 模型,可以直接接收和输出音频,提供更自然的对话节奏和情感表达。OpenAI 首席技术官 Muri Murati 表示,GPT-4o 提供了“GPT-4 级别”的智能,但改进了 GPT-4 在文本、视觉以及音频方面的能力。

 

据介绍,高级语音模式支持超过 50 种语言,9 种逼真输出语音选项,且每种语音都有自己独特的语气和特征。而其背后的 GPT-4o 不仅可以将语音转换为文本,还可以理解和标记音频的其他功能,例如呼吸和情感。

 

在圣诞节期间,OpenAI 还新增了 Santa Mode(圣诞模式),用户可以在 ChatGPT 中与圣诞老人的声音进行实时互动,支持移动应用、桌面应用和网页版。用户通过点击现在 ChatGPT 主屏幕上的雪花图标,或者在设置页面中找到并选择圣诞老人,就你可以向圣诞老人询问关于圣诞节的问题。

 

为了让更多用户体验与圣诞老人对话的功能,首次与圣诞老人进行高级语音对话的用户,其高级语音使用额度将被重置一次。即使你当天的或本月的使用额度已用完,也可以立即与圣诞老人进行语音对话。超出重置后的额度后,用户也可以通过文字方式与圣诞老人聊天。

 

OpenAI 高级研究科学家、德扑 AI 之父 Noam Brown 称,“我完全相信圣诞老人模式会比 o1 吸引来更多的订阅用户。”



结语

OpenAI 直播第六天,CEO Sam Altman 并没有出现,而是由包括 OpenAI 的首席产品官 Kevin Weil、OpenAI 产品经理 Jackie Shannon、负责多模态的 OpenAI 技术团队成员 Michelle Qin 和 Rowan Zellers 在内的四位员工来介绍了更新的功能。

 

其中,Michelle Qin 是唯一的华人,入职 OpenAI 六个月。根据其个人主页的介绍,Michelle Qin 是斯坦福大学理学士和硕士毕业生,主修人工智能领域的计算机科学。此前曾有过在苹果和 Pika 工作的经历。

 

然而,OpenAI 第六天的更新也迎来一波网友的吐槽。有网友评价,这次的更新很“无聊”,或许明天会“很疯狂”。也有网友认为,“这只是 Sora 上映后的一个 ‘降温 ’功能。”




还有网友表示,“谷歌在正式发布之前就向用户发布了 Gemini 2,并且从一开始就提供实时语音和视频聊天,OpenAI 却在发布后花了将近半年的时间才推出。”



值得一提的是,就在昨天下午,ChatGPT 还突然宕机了近 4 个小时,就连新发布的 Sora 也未能幸免。ChatGPT 宕机之时,众多用户都直呼“全球学术停摆了”。而这已经不是 ChatGPT 第一次发生这样的情况,上个月 ChatGPT 瘫痪了 30 分钟,今年 6 月的宕机甚至持续了 5 小时以上。

 

参考链接:

https://help.openai.com/en/articles/8400625-voice-mode-faq

2024-12-13 08:007665

评论

发布
暂无评论
发现更多内容

第十周课后练习

Binary

架构入门感悟总结

笑春风

Pulsar 社区周报|2021-01-18 ~ 2021-01-24

Apache Pulsar

大数据 开源 pulsar Apache Pulsar 消息系统

「架构师训练营 4 期」 第五周 - 001&2

凯迪

28天瞎写的第二百三十四天:炒肝你吃得惯吗?

树上

28天写作

第十周学习心得

cc

第三周作业

秦挺

架构师训练营第五周作业

跳蚤

ARTS打卡 第29周

引花眠

微服务 ARTS 打卡计划

LeetCode题解:433. 最小基因变化,双向BFS(beats 99%),JavaScript,详细注释

Lee Chen

算法 大前端 LeetCode

CSS(十)——用CSS设置表格样式

程序员的时光

程序员 大前端 七日更 28天写作

架构总结思维导图

Mars

死锁问题

武哥聊编程

Java 多线程 死锁

架构师系列 15 系统设计图

桃花原记

你知道什么是敏捷交换机吗?

ReentrantReadWriteLock读写锁简单原理案例证明

叫练

ReentrantReadWriteLock 共享锁 独占锁 锁降级

智能汽车vs.智能手机 (28天写作 Day24/28)

mtfelix

智能手机 28天写作 智能汽车 未来社会 未来游牧化

怎么才能摸透String类的底层原理?看完这篇你就懂了

后台技术汇

28天写作

Soul网关源码解析目录

Java 网关 源码解析

个人隐私之后期展望

张老蔫

28天写作

如何完成一次快速的查询

xcbeyond

MySQL ES 优化 MySQL优化 28天写作

开发质量提升系列:标准模板(上)

罗小龙

方法论 28天写作

产品的解决方案设计原则

🙃

产品经理

架构师训练营第五周学习总结

跳蚤

前端工程师的一大神器——puppeteer

执鸢者

大前端 Node puppeteer

使用 Tye 辅助开发 k8s 应用竟如此简单(一)

newbe36524

Docker 微服务 k8s dotnet

在nodejs中创建cluster

程序那些事

nodejs cluster 程序那些事 childprocess workerThread

第十周命题作业

cc

架构师训练营 4 期 第5周

引花眠

架构师训练营 4 期

产品经理训练营笔记-解决方案的设计和积累

.nil?

产品经理训练营

Scrum Patterns:准备就绪的标准 DoR(译)

Bruce Talk

敏捷 译文 Agile Scrum Patterns

OpenAI版Her登场,GPT能实时视频通话了!德扑AI之父:比 o1“更受宠”的模式降临_生成式 AI_华卫_InfoQ精选文章