QCon 演讲火热征集中,快来分享技术实践与洞见! 了解详情
写点什么

对话 OpenAI Greg Brockman:GPT-4 并不完美,但人类也一样

  • 2023-03-23
    北京
  • 本文字数:2781 字

    阅读完需:约 9 分钟

对话OpenAI Greg Brockman:GPT-4并不完美,但人类也一样

OpenAI日前发布了备受期待的文本生成 AI 模型 GPT-4。在举世轰动之余,人们也实在好奇这样的辉煌成就究竟是如何被创造出来的。

 

GPT-4 在多个关键层面对上代 GPT-3 实现了超越,包括提供更符合事实的陈述,也允许开发人员轻松设定风格和行为。它还具备多模态支持能力,可以理解图像,甚至根据照片内容添加标题和做出解读。

 

GPT-4也有不少严重缺陷。与 GPT-3 一样,该模型仍存在“幻觉”和基础性的推理错误。OpenAI 自己发布博文称,GPT-4 将猫王称为“演员的儿子”(他的父母并非演员)。

 

为了更好地了解 GPT-4 的开发周期、现有功能和局限性,我们有幸与 OpenAI 联合创始人兼总裁 Greg Brockman 进行了交谈。

 

在被问及 GPT-4 和GPT-3的区别时,Brockman 只说了一个词:不一样。

 

“二者确实不一样。GPT-4 模型仍然存在很多问题和错误……但也可以看到,它对微积分和法律内容的理解实现了飞跃。尽管在某些领域的表现还是不行,但在其他方面就算用衡量人类的标准看也是相当出色。”

 

测试结果也证实了他的说法。在美国大学理事会的 AP 微积分 BC 考试中,GPT-4 获得了 4 分(满分 5 分),GPT-3 则仅获得 1 分。(作为 GPT-3 与 GPT-4 之间的过渡版本,GPT-3.5 同样拿到 4 分。)而在模拟律师考试中,GPT-4 的排名在人类考生中挤入前 10%,GPT-3.5 的分数则在倒数 10%左右。

 

此外,GPT-4还表现出了有趣的多模态支持能力。与只能接受文本提示的 GPT-3 和 GPT-3.5(例如「写一篇关于长颈鹿的文章」)不同,GPT-4 能够通过图像和文本提示来执行某些操作。(例如提交一张长颈鹿的实拍照片,问「图中有多少只长颈鹿?」)

 

这是因为 GPT-4 接受了图像和文本数据的双料训练,而前面几个版本只接受过文本训练。OpenAI 表示,训练数据来自“各种许可、创建且公开可用的数据源,其中可能包括公开可用的个人信息”。但 Brockman 拒绝回答更多具体细节(OpenAI 之前曾经因训练数据的归属问题陷入法律纠纷)。

 

GPT-4 也确实表现出令人印象深刻的图像理解能力。例如,输入提示“这张图片的笑点在哪里?”,再配上一张 VGA 线接 iPhone 的照片,GPT-4 就正确理解了个中内容并详细做出解释(「图像中的笑点,来自错误将陈旧的大 VGA 端口接入小型现代智能手机的充电口」)。

 

目前只有一家合作伙伴获准使用 GPT-4 的图像分析功能,这就是名为 Be My Eyes 的视障人士辅助应用。Brockman 表示,OpenAI 正在评估功能开放的风险和收益,而且后续推广一定会采取“缓慢且谨慎的方式”。

 

“我们需要想办法解决人脸识别和人物肖像等政策性问题。我们得摸清危险区在哪里、红线在哪里,然后随时间推移逐步找到正确的处理方式。”

 

OpenAI 的文本到图像系统DALL-E 2 也遭遇过类似的道德困境。OpenAI 最初允许客户上传人脸,使用 AI 图像生成系统进行画面编辑,但在激起反对后紧急叫停。后来 OpenAI 宣称安全系统已经升级,能够“最大限度降低 deepfakes、色情、政治和暴力内容造成的潜在危害”,并将人脸编辑功能重新开放。

 

另一大隐患在于 GPT-4 可能被用于造成意外危害,包括利用目标心理、实施金钱欺诈等。模型发布数小时之后,以色列网络安全初创公司 Adversa AI 就发布博文,表示已成功绕过 OpenAI 的内容过滤器,甚至公开了让 GPT-4 生成网络钓鱼邮件、对同性恋者的攻击性描述及其他有毒文本的办法。

 

这在语言模型领域算是个老大难问题了。Meta公司的 BlenderBot 和 OpenAI 的ChatGPT都曾在用户的“诱导”下生成了极具冒犯性的内容,甚至透露了系统内部运作的敏感细节。但人们仍然对 AI 大模型的表现振奋不已,也期待 GPT-4 能在自我审查和节制方面实现重大改进。

 

在被问及 GPT-4 的稳健性时,Brockman 强调该模型已经接受了六个月的安全训练。而且在内部测试中,它对 OpenAI 禁止内容做出响应的几率较 GPT-3.5 降低了 82%,生成“符合事实”响应的几率则提高了 40%。

 

“我们花了很多时间来摸索 GPT-4 的能力,摸索的方式就是把它对外公布。我们不断做更新,包括一系列改进,希望模型能真正匹配使用者想要的个性或模式。”

 

但必须承认,早期实际测试的结果并不理想。除了 Adversa AI 测试之外,基于 GPT-4 的微软聊天机器人 Bing Chat 也被证明极易被“攻破”。利用精心设计的输入,用户已经能让机器人表达爱意、威胁伤害、支持大屠杀和编造阴谋论。

 

Brockman 并不否认 GPT-4 的种种不足。但他也强调了该模型所使用的新型操控缓解工具,包括 API 级的“系统”消息功能。系统消息的本质是一种指令,负责为 GPT-4 的交互行为设定基调和边界。例如,系统消息可以这样编写,“你是一位苏格拉底式的思辨型导师,你永远不会直接给学生答案,而是通过一个个正确的问题帮助他们学会独立思考。”

 

OpenAI希望把系统消息当作护栏,防止 GPT-4 偏离既定“轨道”。

 

“我们一直在努力理解 GPT-4 的基调、风格和实质从何而来。我觉得现在我们已经在工程层面找到些思路了,包括如何实现可重现的过程,生成对人们真正有用的可预测结果。”

 

Brockman 还谈到了 Evals,这是 OpenAI 用于评估其 AI 模型性能的全新开源软件框架。OpenAI 希望借此保证自家模型的“稳健性”。Evals 允许用户开发和运行基准测试,以此评估 GPT-4 等模型的性能,这意味着大语言模型将步入众包测试的新时代。

 

“借助 Evals,我们能够以系统化的方式掌握用户最关心的用例,并据此开展测试。之所以决定开源,也是考虑到我们后续不会再隔三个月才发布新模型,而是转向持续改进的方式。如果无法衡量,自然也就无法实现了,对吧?在为模型开发新版本时,我们至少可以借此了解哪些地方发生了变化。”

 

我们询问 Brockman,OpenAI 打不打算向通过 Evals 测试其模型的人们付费。他暂时给不出确切的结论,但表示 OpenAI 确实向指定的 Evals 用户开放了 GPT-4 API 的早期访问权限。

 

Brockman 还谈到了 GPT-4 的上下文窗口,也就是模型在生成新文本之前能够参考的文本量。OpenAI 目前正在测试 GPT-4 某一特定版本,其能够“记住”约 50 页内容。换句话说,这个版本的“记忆容量”相当于普通 GPT-4 的 5 倍、GPT-3 的 8 倍。

 

Brockman 认为更大的上下文窗口将派生出前所未有的新型应用程序,特别是在企业场景之下。他设想会有专门为企业业务构建的 AI 聊天机器人,能够利用不同来源(包括各部门员工)的上下文和知识以娴熟的对话解惑答疑。

 

这虽然不是什么新鲜概念,但 Brockman 表示 GPT-4 的回答质量要远远高于责令一切聊天机器人和搜索引擎。

 

“以往,模型并不知道是谁在发问、你对哪些内容感兴趣等。更大的上下文窗口代表着更丰富的参考信息,肯定会让 AI 模型掌握更多知识、更好地为人类赋能。”

 

原文链接:

https://techcrunch.com/2023/03/15/interview-with-openais-greg-brockman-gpt-4-isnt-perfect-but-neither-are-you/?guccounter=1&guce_referrer=aHR0cHM6Ly9uZXdzLnljb21iaW5hdG9yLmNvbS8&guce_referrer_sig=AQAAAATciFx2sgGMIyHWoErJAFDo6hB-eouE0HxMvTSOgk8aD6C_Clkzk1JtNZaOTbUtf9Sa-BuwBS36sQu2t7l6vwj58K34WkrFWPpyEGskLBTvfqdMXbtLtF6ZaOoTWSWRCt7Egccc-lQIqGECJN5Y2gZX1WXh9FR5o17IQEHY3jjf

2023-03-23 16:594507
用户头像
李冬梅 加V:busulishang4668

发布了 984 篇内容, 共 589.1 次阅读, 收获喜欢 1143 次。

关注

评论

发布
暂无评论
发现更多内容

了解什么是UV纹理?

3D建模设计

3D渲染 3D材质编辑 3D材质纹理贴图 UV纹理贴图 UV映射

CAE技术的局限性讨论-CAE咨询

智造软件

CAE CAE软件

使用AI搭建SpringBoot服务

X.F

AI Openjdk Java' openai Bard

一文详解VScode 的远程开发

快乐非自愿限量之名

远程开发 vs-code

2023年国内AI Agent下项目大盘点,科技大厂与创业公司齐头并进

王吉伟频道

创业 融资 大语言模型 AI Agent AI智能体

AE脚本-快速创建微风摇曳摆动波浪动画 Breeze

Rose

阿里云 EMAS & 魔笔:12月产品动态

移动研发平台EMAS

UV贴图和展开初学者指南

3D建模设计

3D渲染 3D材质编辑 3D材质纹理贴图 UV纹理贴图 UV映射

GaussDB(for MySQL)新特性TDE发布:支持透明数据加密

华为云开发者联盟

数据库 后端 华为云 华为云开发者联盟 华为云GaussDB(for MySQL)

AE脚本-图层分布路径形状高级控制 Tweaks

Rose

2024年最热门的15个科技工作岗位

互联网工科生

程序员 科技 岗位

亚马逊云科技助力施耐德电气加速AI技术在制造场景的落地与创新

财见

Postgres 中文周报:PostgreSQL 2023 热门回顾

酷克数据HashData

Apache Flink 和 Paimon 在自如数据集成场景中的使用

Apache Flink

大数据 flink 实时计算

NeurIPS’23 Paper Digest | 如何把 LLM 的推理能力应用于事件序列预测?

可信AI进展

人工智能 机器学习 推理 推理模型 算法、

软件测试开发/全日制/测试管理丨接口功能测试

测试人

软件测试 自动化测试 接口测试 测试开发 测试管理

软件测试开发/全日制/测试管理丨用户端 App 自动化测试

测试人

软件测试 自动化测试 测试开发 app自动化测试

低代码平台几分钟构建一个内部应用程序

高端章鱼哥

开发工具 低代码开发 JNPF

面向研发使用、全栈开发、前后端分离的低代码平台

互联网工科生

软件开发 前后端分离 低代码 全栈开发

软件测试开发/全日制/测试管理丨用户端 Web 自动化测试

测试人

软件测试 自动化测试 测试开发 Web自动化测试 web测试

什么是多边形网格以及如何编辑它?

3D建模设计

3D渲染 3D材质编辑 3D材质纹理贴图 UV纹理贴图 UV映射

鸿蒙系统应用开发之开发准备

EquatorCoco

华为 系统开发 鸿蒙系统

DAPP、链游、交易所和区块链钱包开发

区块链软件开发推广运营

交易所开发 区块链开发 链游开发 公链开发 区块链开发DAPP开发

如何选择适合自己的外贸独立站域名?

九凌网络

医疗机构如何释放数据要素价值 推动数据资产化

用友BIP

数据资产

软件测试开发/全日制/测试管理丨接口测试抓包与 Mock/接口自动化

测试人

软件测试 接口测试 测试开发 Mock

关于 IntelliJ IDEA 中 Schedule for Addition 的问题

Rose

IntelliJ IDEA

业务无忧:稳定云虚拟主机让您的在线业务更加顺畅

一只扑棱蛾子

虚拟主机 云虚拟主机

UV映射技巧和窍门

3D建模设计

3D渲染 3D材质编辑 3D材质纹理贴图 UV纹理贴图 UV映射

如何选择适合自己的外贸独立站域名?

九凌网络

对话OpenAI Greg Brockman:GPT-4并不完美,但人类也一样_AI&大模型_Kyle Wiggers_InfoQ精选文章