2024 可信数据库发展大会报名通道已开启!! 了解详情
写点什么

好消息:OpenAI 突然发了新模型!坏消息:只是纠错,没你想得逆天

  • 2024-06-28
    北京
  • 本文字数:3078 字

    阅读完需:约 10 分钟

大小:1.43M时长:08:19
好消息:OpenAI 突然发了新模型!坏消息:只是纠错,没你想得逆天

整理 | 华卫

 

对于 ChatGPT 等聊天机器人提供支持的大型语言模型来说,最大问题之一是,永远不知道何时可以信任它们。它们可以针对任何问题生成清晰而有说服力的答案,并且提供的大部分信息都是准确而有用的,但它们也会产生幻觉。用不太礼貌的话来说,它们会胡编乱造,需要人类用户自己去发现错误。它们还会阿谀奉承,试图告诉用户他们想听的内容。

 

如今,OpenAI在这个问题的解决上迈出了最新的一小步:开发了一种上游工具,能够帮助训练模型的人类引导模型走向真实和准确。

 

6 月 27 日,OpenAI 宣布,其研究人员训练了一个用于捕捉 ChatGPT 代码输出错误的模型,名为 CriticGPT。CriticGPT 是一个基于 GPT-4 的模型,它撰写了对 ChatGPT 响应的评论,以帮助人类训练师在 RLHF 期间发现错误。

 

OpenAI 发现,当人们在 CriticGPT 的帮助下审阅 ChatGPT 代码时,他们在 60% 的情况下比没有 CriticGPT 帮助的人表现得更好。因此,目前 OpenAI 正在着手将类似 CriticGPT 的模型集成到其人类反馈强化学习 (RLHF)  标签管道中,为自己的人类训练师提供明确的人工智能帮助。

 

“这是朝着能够评估高级人工智能系统输出的目标,迈出的关键一步。如果没有更好的工具,人们很难对这些结果进行评分。”OpenAI 这样评价 CriticGPT。同时,OpenAI 发布了详细介绍 CriticGPT 背后技术的预印本论文

 

CriticGPT 的纠错能力

据了解,为 ChatGPT 提供支持的 GPT-4 系列模型通过 "从人类反馈中强化学习"(RLHF)实现了帮助和互动。RLHF 的一个关键部分是收集比较信息,由被称为人工智能训练师的人员对不同的 ChatGPT 响应进行评分。

 

随着 OpenAI 在推理和模型行为方面的进步,ChatGPT 变得越来越精确,输出错误也变得更加微妙,可能会使人类训练师难以发现模型输出结果中的不准确之处,从而使为 RLHF 提供支持的比较任务变得更加困难。这是 RLHF 的一个基本局限,并且随着模型逐渐变得比任何可以提供反馈的人都更博学,可能会使模型之间的比对和调整变得越来越困难。

 

为了帮助应对这一挑战,OpenAI 对 CriticGPT 进行了训练,研究人员在有意插入错误的代码样本数据集上让其撰写批评意见,教它识别和标记各种编码错误。作为人类训练师的 AI 助手,CriticGPT 能够负责审查 ChatGPT AI 助手生成的编程代码,其基于 GPT-4 系列的 LLMS 分析代码并指出潜在的错误,使人类更容易发现可能被忽视的错误。

 

虽然 CriticGPT 的建议并不总是正确的,但 OpenAI 发现,与没有 AI 帮助相比,它们可以帮助人类训练师在模型编写的代码中发现更多的问题。

 


此外,当人类训练师使用 CriticGPT 时,人工智能会增强他们的技能,从而产生比单独工作时更全面的评论以及比模型单独工作时更少的幻觉错误。在 OpenAI 的实验中,第二位随机训练师在 60% 以上的时间里,都更喜欢来自人类+CriticGPT 团队的评论,而不是来自无辅助人员的点评。

 


CriticGPT 帮助人类训练师写出比没有帮助更全面的评论,同时产生的幻觉比仅来自模型的批评更少。

 

有趣的是,OpenAI 还发现,CriticGPT 的功能不仅仅局限于代码审查。在研究人员的实验中,他们将该模型应用于 ChatGPT 训练数据的一个子集,这些数据以前被人类注释者评为完美无缺。令人惊讶的是,CriticGPT 在这些案例中发现了 24% 的错误——这些错误随后得到了人工审稿人的确认。

 

OpenAI 认为,这表明该模型具有推广到非代码任务的潜力和捕捉细微错误的能力,即使是仔细的人类评估也可能遗漏这些错误。

模型训练方法

 

与 ChatGPT 类似,CriticGPT 也使用 RLHF 进行训练。但与 ChatGPT 不同的是,CriticGPT 会看到大量包含错误的输入,然后对这些错误进行评论。

 

在 OpenAI 的实验中,他们研究了 CriticGPT 能否捕捉到插入的错误,以及之前的训练师捕捉到的 "自然发生的 "ChatGPT 错误。他们要求人类训练师在 ChatGPT 编写的代码中手动插入这些错误,然后写出反馈示例,就好像他们抓住了刚刚插入的错误一样。然后,同一个人对修改后的代码进行多次评论比较,这样他们就能很容易地分辨出评论何时抓住了他们插入的错误。

 

其发现,在 63% 的自然出现的错误案例中,训练师更喜欢 CriticGPT 批评而不是 ChatGPT 批评,部分原因是新批评者提出的“吹毛求疵”(无益的小抱怨)更少,产生幻觉问题的频率也更低。

 

此外,OpenAI 还发现,通过对批评奖励模型使用额外的测试时搜索,可以生成更长、更全面的批评。通过这种搜索过程,他们可以平衡在代码中查找问题的积极程度,并在幻觉和检测到的错误数量之间进行精确召回权衡。这意味着,他们可以生成对 RLHF 尽可能有帮助的评论。

 

在 CriticGPT 的开发中,OpenAI 研究人员还创造了一种新技术,他们称之为力采样光束搜索(FSBS)。这种方法可以帮助 CriticGPT 编写更详细的代码评论,让研究人员可以调整 CriticGPT 在寻找问题方面的彻底程度,同时还可以控制它编造并不真正存在的问题的频率。他们可以根据不同 AI 训练任务的需求来调整这种平衡。

 

局限性

 

尽管与所有 AI 模型一样,CriticGPT 取得了令人鼓舞的结果,但它也存在局限之处,包括以下几方面:

 

  • 目前,OpenAI 用 ChatGPT 的简短答案来训练 CriticGPT。为了监督未来的代理,他们需要开发能帮助训练员理解冗长复杂任务的方法。

  • CriticGPT 模型仍然会产生幻觉,有时人类训练师在看到这些幻觉后会犯下标记错误。

  • 有时真实世界中的错误会分散在输出答案的多个部分,而 CriticGPT 的工作重点是可以在一个地方指出错误,但将来也需要解决分散的错误。

  • CriticGPT 所能提供的帮助有限,如果一项任务或响应极其复杂,即使是有模型帮助的专家也可能无法正确评估。

 

关于 OpenAI 提到的使用 CriticGPT 来捕捉文本错误的方面,实际上也很棘手,因为文本中的错误并不总是像代码那样明显。更重要的是,RLHF 经常被用来确保模型在回答问题时不会出现有害偏见,并在有争议的问题上提供可接受的答案。对此,OpenAI 研究员 Nat McAleese 也表示,在这种情况下,CriticGPT 不太可能起到帮助作用, "这种方法不够有力"。

 

可以确定的是,为了调整日益复杂的人工智能系统,未来需要更好的纠错工具。由于在对 CriticGPT 的研究中,OpenAI 发现将 RLHF 应用于 GPT-4 有希望帮助人类为 GPT-4 生成更好的 RLHF 数据,他们正计划进一步扩大这项工作的规模,并将其付诸实践。

 

结语

一位与 OpenAI 无关的 AI 研究人员表示,CriticGPT 这项工作在概念上并不新鲜,但它在方法论上做出了有用的贡献。麻省理工学院博士生、2023 年一篇关于 RLHF 局限性的预印本论文的主要作者之一 Stephen Casper 表示:“RLHF 的一些主要挑战源于人类认知速度、注意力和对细节的关注的限制。“从这个角度来看,使用 LLM 辅助的人工注释器是改善反馈过程的自然方法,是朝着更有效地训练对齐模型迈出的重要一步。

 

但 Casper 也指出,将人类和人工智能系统的努力结合起来“可能会产生全新的问题”。例如,“这种方法增加了人类敷衍参与的风险,并可能允许在反馈过程中注入微妙的人工智能偏见。

 

2023 年 7 月,OpenAI 曾宣布将其 20% 的计算资源用于对齐研究。但目前 OpenAI 已经解散了其对齐团队,并将剩余的团队成员分配给其他研究小组。此次 OpenAI 发布的研究成果表明,至少他们仍在开展可信和开创性的对齐研究。

 

参考链接:

https://openai.com/index/finding-gpt4s-mistakes-with-gpt-4/

https://arstechnica.com/information-technology/2024/06/openais-criticgpt-outperforms-humans-in-catching-ai-generated-code-bugs/

https://spectrum.ieee.org/openai-rlhf

 

公众号推荐:

AGI 概念引发热议。那么 AGI 究竟是什么?技术架构来看又包括哪些?AI Agent 如何助力人工智能走向 AGI 时代?现阶段营销、金融、教育、零售、企服等行业场景下,AGI应用程度如何?有哪些典型应用案例了吗?以上问题的回答尽在《中国AGI市场发展研究报告 2024》,欢迎大家扫码关注「AI前线」公众号,回复「AGI」领取。

2024-06-28 15:394

评论

发布
暂无评论

干货 | 初窥 Pytest 测试框架,基础薄弱也能轻松 hold 住

霍格沃兹测试开发学社

JDK 17 营销初体验 —— 亚毫秒停顿 ZGC 落地实践 | 京东云技术团队

京东科技开发者

ZGC jvm调优 jdk17 企业号 8 月 PK 榜

JaCoCo助您毁灭线上僵尸代码 | 京东物流技术团队

京东科技开发者

Java JACOCO 企业号 8 月 PK 榜 僵尸代码

学会这些 Docker 命令,面试再也不怕啦~

霍格沃兹测试开发学社

Docker搭建测试用例平台 TestLink

霍格沃兹测试开发学社

LangChain系列-02. LLM基础

无人之路

openai ChatGPT langchain

浅谈测试需求分析

霍格沃兹测试开发学社

持续交付-Pipeline入门

霍格沃兹测试开发学社

使用Fastmonkey进行iosMonkey测试初探

霍格沃兹测试开发学社

你们的优雅停机真的优雅吗? | 京东云技术团队

京东科技开发者

Java Spring Boot JVM 优雅停机 企业号 8 月 PK 榜

技术分享 | 接口测试之HTTP、HTTPS 抓包分析

霍格沃兹测试开发学社

Log4j疯狂写日志问题排查 | 京东云技术团队

京东科技开发者

Java log4j Log4j 2 企业号 8 月 PK 榜

为什么要urlencode?

霍格沃兹测试开发学社

秒杀库存解决方案

Java研究者

架构 高性能 秒杀 电商系统 库存系统

干货 | 在Docker 上搭建持续集成平台 Jenkins

霍格沃兹测试开发学社

Apache Paimon 在同程旅行的实践进展

Apache Flink

大数据 flink 实时计算

Kafka入门

霍格沃兹测试开发学社

接口管理工具YApi怎么用?颜值高、易管理、超好用

霍格沃兹测试开发学社

Spring 中 @Qualifier 注解还能这么用?

江南一点雨

Java spring

实力!云起无垠获ISC 2023创新独角兽沙盒大赛“创新能力奖”

云起无垠

开放原子开源基金会开源安全委员会七月新增成员单位

开放原子开源基金会

开放原子开源基金会

技术分享 | 使用 cURL 发送请求

霍格沃兹测试开发学社

技术分享 | 测试平台开发-前端开发之Vue.js 框架的使用

霍格沃兹测试开发学社

解决 App 自动化测试的常见痛点

霍格沃兹测试开发学社

精准化测试原理简介

霍格沃兹测试开发学社

接口协议之抓包分析 TCP 协议

霍格沃兹测试开发学社

技术分享 | app自动化测试(Android)-- 参数化用例

霍格沃兹测试开发学社

技术分享 | 如何模拟真实使用场景?mock 技术来帮你

霍格沃兹测试开发学社

技术分享 | 抓包分析 TCP 协议

霍格沃兹测试开发学社

干货 | 利用 pytest 玩转数据驱动测试框架

霍格沃兹测试开发学社

用了Go匿名结构体,搬砖效率更高,产量更足了

高端章鱼哥

Go 接口 map 结构体

好消息:OpenAI 突然发了新模型!坏消息:只是纠错,没你想得逆天_生成式 AI_华卫_InfoQ精选文章