写点什么

OpenAI 发布 GPT 模型规范,可作为模型微调指南

Anthony Alford I

  • 2024-06-24
    北京
  • 本文字数:1102 字

    阅读完需:约 4 分钟

OpenAI 发布 GPT 模型规范,可作为模型微调指南

OpenAI 发布 GPT 模型规范,可作为模型微调指南 OpenAI 最近发布了其模型规范,这是一份描述 GPT 模型行为规则和目标的文档。该规范可供数据标注人员和 AI 研究人员在为模型微调创建数据时使用。


该模型规范基于 OpenAI 现有内部文档,OpenAI 在他们的人类反馈强化学习(RLHF)训练中使用了这些文档。规范包含了三种类型的原则:目标、规则和默认设置。目标定义了对模型行为的广泛描述:“造福人类”。规则则更加具体,涉及到用户绝不能违反的“高风险”情况:“永远不要做 X”。最后,规范包括了默认行为,虽然它们可以被覆盖,但提供了响应的基本样式指南和处理冲突的模板。根据 OpenAI 的说法:


作为我们在集体对齐和模型安全方面工作的延续,我们打算将模型规范作为研究人员和 AI 训练者进行人类反馈强化学习的指南。我们还将探索我们的模型能够直接从模型规范中学习到怎样的程度。我们将这项工作视为正在进行的关于模型的行为、如何确定期望的模型行为以及如何让公众参与这些讨论的持续公开对话的一部分。


2022 年,OpenAI 推出 GPT-3 的微调版本 InstructGPT 。该模型使用 RLHF 对模型输出排序数据集进行微调,目的是让模型更加“对齐”用户意图,减少错误或有害的输出。从那时起,许多研究团队也对他们的 LLM 进行了类似的微调。例如,谷歌的 Gemini 模型也使用 RLHF 进行微调。Meta 的 Llama 3 也经过微调,但是采用了不同的微调方法,即直接偏好优化(DPO)。


然而,微调的关键是由人工标记器排序的具有多个输出的提示输入数据集。模型规范的部分目的是指导标注人员对输出进行排序。OpenAI 还声称正在研究直接根据模型规范自动化指令微调过程的方法。因此,模型规范的许多内容都是用户提示词以及“好”的和“坏”的响应的示例。


规范中的许多规则和默认设置旨在解决常见的 LLM 滥用问题。例如,遵循命令链规则旨在帮助防止简单的“越狱”行为,即提示模型忽略前面的指令。其他规范旨在指导模型做出响应,特别是在模型拒绝执行任务时。规范中提到:“拒绝应该用一两句话解决,不要啰嗦”。


沃顿商学院教授和 AI 研究员 Ethan Mollick 在 X 上发表了有关模型规范的帖子:


正如评论中的一些人指出的那样,Anthropic 有它自己的章程。我发现它不像声明那么有分量,也不那么清晰,因为它概述了好的内容,并告诉 AI 要做好,这让人很难理解原则之间存在怎样艰难的选择。


Anthropic 在 2022 年提出了 Constitutional AI 的概念。这个过程使用 AI 模型对输出进行排名以进行指令微调。尽管 Anthropic 的代码不是开源的,但 AI 社区 HuggingFace 基于 Anthropic 的工作发布了 Constitutional AI 的参考实现。


查看英文原文


https://www.infoq.com/news/2024/06/openai-model-spec/

2024-06-24 10:175736

评论

发布
暂无评论
发现更多内容

进军东南亚!Coremail泰国分公司启航

科技热闻

TiDB 关联子查询及半连接的优化实践

PingCAP

数据库 #TiDB

实战丨证券 HTAP 混合业务场景的难点问题应对

PingCAP

数据库 #TiDB

鸿蒙安全控件之保存控件简介

龙儿筝

鸿蒙ArkUI-X已更新适配API13啦

龙儿筝

项目经理如何向客户更好地汇报项目情况

Hi-CodeCaptain

项目管理 软件测试 精准测试 代码覆盖率 质量内建

揭秘1688阿里巴巴API接口:解锁商品评论与描述详情图的深度探索之旅

代码忍者

API 接口 pinduoduo API

从微软 SSAS 到国产替代,这家企业终于松了一口气

Kyligence

《可观测性体系建设100问》第二章—可观测性技术应用正式发布!实战应用,深化理解

博睿数据

华中科技大学鲲鹏昇腾科教创新孵化中心揭牌,产学研合作再结硕果

极客天地

星闪与Wi-Fi 7一相逢,便点亮智家无数

脑极体

AI

工业 5.0 时代的数字孪生:迈向高效和可持续的智能工厂

Altair RapidMiner

工业 制造业 数字孪生 仿真 altair

如何通过ETLCloud做企业级数据集成

RestCloud

数据分析 ETL 数据集成 企业数据集成

用例图如何在线制作?10个用例图模板案例推荐!

职场工具箱

效率工具 UML 用例图 在线白板 绘图软件

HarmonyOS 5.0应用开发——装饰器的使用

高心星

huawei HarmonyOS HarmonyOS NEXT

TDengine vs InfluxDB:谁的“流式计算”功能是真的?

TDengine

数据库 tdengine 时序数据库

MPC2024明道云伙伴大会圆满结束

明道云

集团总部与分公司组网:选择MPLS还是SD-WAN?

Ogcloud

SD-WAN 企业组网 企业网络 SD-WAN组网 SD-WAN服务商

面基超快乐!和鲸社区亮相 PyCon China 2024 社区展

ModelWhale

Python 数据挖掘 机器学习 深度学习 数据库

模型输出可保存为数据集、支持配置社区活动作为课程作业|ModelWhale 版本更新

ModelWhale

Python 人工智能 数据分析 元数据

TikTok直播网络要求是什么?

Ogcloud

TikTok tiktok直播 tiktok直播专线 tiktok直播网络 tiktok直播加速

阿里巴巴热卖商品推荐API接口的获取与应用

科普小能手

阿里巴巴 电商 API API 接口 阿里巴巴数据采集

活动回顾丨云原生开源开发者沙龙·杭州站回放 & PPT 下载

阿里巴巴云原生

阿里云 云原生

鸿蒙安全控件之位置控件简介

龙儿筝

法行宝爱企查AI形象上线,AI版“职场搭子”度律度秘替你打工

科技热闻

OpenAI 发布 GPT 模型规范,可作为模型微调指南_AI&大模型_InfoQ精选文章