整理｜华卫

昨天 OpenAI 的风头几乎都被谷歌抢尽了，不少用户都直接站队 Gemini 2.0 ，称其是“GPT-5 级别的威胁”，不仅能生成文字外，还能直接生成图片和语音。更为关键的是，Gemini 2.0 供全球用户使用，而且有专门的实验版模型对所有开发者免费开放。

今天，OpenAI 就带来了高级语音模式的功能更新：实时视频通话、屏幕共享和图像上传。即日起，这三项功能将在接下来几天内向所有 Team、以及大多数 ChatGPT Plus 和 Pro 用户推出（欧盟、瑞士、冰岛、挪威和列支敦士登的用户除外），Enterprise 和 Edu 用户将在明年 1 月获得访问权限。其中，屏幕共享和图片上传仅在 iOS 和 Android 移动应用程序的高级语音模式中推出。

现在 ChatGPT 可以“看到和听到”

高级语音模式在去年发布的 GPT-4o 中已经预览过，但只有音频模式是实时的。现在，用户可以使用手机摄像头与 ChatGPT 聊天，大模型将会 “看到 ”你所看到的一切，包括你的手机屏幕。

进行实时视频通话功能的演示时，OpenAI 的首席产品官 Kevin Weil 首先牵头测试了一番 ChatGPT 的“记忆”能力。在 OpenAI 的团队成员依次与 ChatGPT 视频打过招呼并有了一定的认识后，Weil 要求它回忆各位成员的特征并说出相应的姓名。

接下来， Weil 又和其他 OpenAI 团队成员演示了 ChatGPT 协助如何制作手冲咖啡：通过将摄像机对准动作，AVM 展示了它对咖啡机原理的理解，并引导提问者完成咖啡的整个冲泡过程。并且，在整个演示过程中，ChatGPT Advanced Voice 保持了自然而亲切的声音，还调整了它的语气，甚至像人类一样大笑。

有网友开玩笑道，“下一步 GPT 该指导人做饭了。”还有网友表示，“Her 正在慢慢成为现实”，“如果这不是 AGI，我不知道什么是。”

该团队还展示了 ChatGPT 如何理解上传的屏幕截图，这对于需要 ChatGPT 提供技术支持或协助处理屏幕内容的情况非常有用。当选择 “共享屏幕 ”时，会弹出手机的屏幕共享选项，允许用户将屏幕广播给 ChatGPT；开始屏幕共享后，再次按下屏幕共享按钮即可停止与 ChatGPT 共享屏幕。

同时，OpenAI 官方提醒到，ChatGPT 可能会自动响应用户从相机或屏幕上分享的内容。此外，在用户停止分享后，ChatGPT 可能仍会引用其之前在对话中分享的内容。但 OpenAI 保证，除非用户启用了“为每个人改进模型”，否则他们不会使用对话中上传的音频或视频片段来训练大模型。

比 o1“更受欢迎”的模式来了？

高级语音模式基于原生多模态 GPT-4o 模型，可以直接接收和输出音频，提供更自然的对话节奏和情感表达。OpenAI 首席技术官 Muri Murati 表示，GPT-4o 提供了“GPT-4 级别”的智能，但改进了 GPT-4 在文本、视觉以及音频方面的能力。

据介绍，高级语音模式支持超过 50 种语言，9 种逼真输出语音选项，且每种语音都有自己独特的语气和特征。而其背后的 GPT-4o 不仅可以将语音转换为文本，还可以理解和标记音频的其他功能，例如呼吸和情感。

在圣诞节期间，OpenAI 还新增了 Santa Mode（圣诞模式），用户可以在 ChatGPT 中与圣诞老人的声音进行实时互动，支持移动应用、桌面应用和网页版。用户通过点击现在 ChatGPT 主屏幕上的雪花图标，或者在设置页面中找到并选择圣诞老人，就你可以向圣诞老人询问关于圣诞节的问题。

为了让更多用户体验与圣诞老人对话的功能，首次与圣诞老人进行高级语音对话的用户，其高级语音使用额度将被重置一次。即使你当天的或本月的使用额度已用完，也可以立即与圣诞老人进行语音对话。超出重置后的额度后，用户也可以通过文字方式与圣诞老人聊天。

OpenAI 高级研究科学家、德扑 AI 之父 Noam Brown 称，“我完全相信圣诞老人模式会比 o1 吸引来更多的订阅用户。”

结语

OpenAI 直播第六天，CEO Sam Altman 并没有出现，而是由包括 OpenAI 的首席产品官 Kevin Weil、OpenAI 产品经理 Jackie Shannon、负责多模态的 OpenAI 技术团队成员 Michelle Qin 和 Rowan Zellers 在内的四位员工来介绍了更新的功能。

其中，Michelle Qin 是唯一的华人，入职 OpenAI 六个月。根据其个人主页的介绍，Michelle Qin 是斯坦福大学理学士和硕士毕业生，主修人工智能领域的计算机科学。此前曾有过在苹果和 Pika 工作的经历。

然而，OpenAI 第六天的更新也迎来一波网友的吐槽。有网友评价，这次的更新很“无聊”，或许明天会“很疯狂”。也有网友认为，“这只是 Sora 上映后的一个 ‘降温 ’功能。”

还有网友表示，“谷歌在正式发布之前就向用户发布了 Gemini 2，并且从一开始就提供实时语音和视频聊天，OpenAI 却在发布后花了将近半年的时间才推出。”

值得一提的是，就在昨天下午，ChatGPT 还突然宕机了近 4 个小时，就连新发布的 Sora 也未能幸免。ChatGPT 宕机之时，众多用户都直呼“全球学术停摆了”。而这已经不是 ChatGPT 第一次发生这样的情况，上个月 ChatGPT 瘫痪了 30 分钟，今年 6 月的宕机甚至持续了 5 小时以上。

参考链接：

https://help.openai.com/en/articles/8400625-voice-mode-faq

创作场景

OpenAI 版 Her 登场，GPT 能实时视频通话了！德扑 AI 之父：比 o1“更受宠”的模式降临

现在 ChatGPT 可以“看到和听到”

比 o1“更受欢迎”的模式来了？

结语