OpenAI 发布 GPT 模型规范，可作为模型微调指南_AI&大模型_InfoQ精选文章

QCon北京开幕在即｜与全球 140+ 顶尖工程师共同解构 AI 时代的技术浪潮了解详情 



 写点什么

登录/注册

OpenAI 发布 GPT 模型规范，可作为模型微调指南

OpenAI 发布 GPT 模型规范，可作为模型微调指南 OpenAI 最近发布了其模型规范，这是一份描述 GPT 模型行为规则和目标的文档。该规范可供数据标注人员和 AI 研究人员在为模型微调创建数据时使用。

该模型规范基于 OpenAI 现有内部文档，OpenAI 在他们的人类反馈强化学习（RLHF）训练中使用了这些文档。规范包含了三种类型的原则：目标、规则和默认设置。目标定义了对模型行为的广泛描述：“造福人类”。规则则更加具体，涉及到用户绝不能违反的“高风险”情况：“永远不要做 X”。最后，规范包括了默认行为，虽然它们可以被覆盖，但提供了响应的基本样式指南和处理冲突的模板。根据 OpenAI 的说法：

作为我们在集体对齐和模型安全方面工作的延续，我们打算将模型规范作为研究人员和 AI 训练者进行人类反馈强化学习的指南。我们还将探索我们的模型能够直接从模型规范中学习到怎样的程度。我们将这项工作视为正在进行的关于模型的行为、如何确定期望的模型行为以及如何让公众参与这些讨论的持续公开对话的一部分。

2022 年，OpenAI 推出 GPT-3 的微调版本 InstructGPT 。该模型使用 RLHF 对模型输出排序数据集进行微调，目的是让模型更加“对齐”用户意图，减少错误或有害的输出。从那时起，许多研究团队也对他们的 LLM 进行了类似的微调。例如，谷歌的 Gemini 模型也使用 RLHF 进行微调。Meta 的 Llama 3 也经过微调，但是采用了不同的微调方法，即直接偏好优化（DPO）。

然而，微调的关键是由人工标记器排序的具有多个输出的提示输入数据集。模型规范的部分目的是指导标注人员对输出进行排序。OpenAI 还声称正在研究直接根据模型规范自动化指令微调过程的方法。因此，模型规范的许多内容都是用户提示词以及“好”的和“坏”的响应的示例。

规范中的许多规则和默认设置旨在解决常见的 LLM 滥用问题。例如，遵循命令链规则旨在帮助防止简单的“越狱”行为，即提示模型忽略前面的指令。其他规范旨在指导模型做出响应，特别是在模型拒绝执行任务时。规范中提到：“拒绝应该用一两句话解决，不要啰嗦”。

沃顿商学院教授和 AI 研究员 Ethan Mollick 在 X 上发表了有关模型规范的帖子：

正如评论中的一些人指出的那样，Anthropic 有它自己的章程。我发现它不像声明那么有分量，也不那么清晰，因为它概述了好的内容，并告诉 AI 要做好，这让人很难理解原则之间存在怎样艰难的选择。

Anthropic 在 2022 年提出了 Constitutional AI 的概念。这个过程使用 AI 模型对输出进行排名以进行指令微调。尽管 Anthropic 的代码不是开源的，但 AI 社区 HuggingFace 基于 Anthropic 的工作发布了 Constitutional AI 的参考实现。

查看英文原文：

https://www.infoq.com/news/2024/06/openai-model-spec/

评论

发布

暂无评论

Linux之ps命令

设计模式之设计原则

写了这么多年后端，你知道事务脚本模式吗？

蜜糖的代码注释

Java 互联网后端

一起玩转LiteOS组件：TinyFrame

华为云开发者联盟

LiteOS 串口 LiteOS组件 TinyFrame 帧

复古冰雪传奇H5游戏详细图文架设教程

游戏开发游戏

JavaScript 之 Proxy

JavaScript 前端 Proxy 1月月更

华山论“件”：Kafka、RabbitMQ、RocketMQ技能大比拼

华为云开发者联盟

kafka RocketMQ RabbitMQ 华为云消息中间件

研发转岗产品经理，有什么需要注意的呢？

产品经理产品思维 1月月更

对比下 datax 的 OceanBase/MYSQL 不同数据同步方案的效率差异 || 聊聊参数 rewriteBatchedStatements

明哥的IT随笔

ChaosCraft：和女朋友一起来 Hackathon 表演绝活丨滑滑蛋团队访谈

TDSQL | DTS for PostgreSQL 逻辑复制详解

腾讯云数据库

tdsql 国产数据库

创梦天地发行公益性数字艺术藏品,打造不一样的年味

我的架构学习之始

高效管理邮件的方式

工具软件办公效率邮件管理

小程序电商业务微服务拆分及基础设施选型

架构实战营 #架构实战营「架构实战营」

Android Studio开发flutter快捷键及文本显示技巧。

flutter 1月月更

CVE-2021-4034 Linux Polkit 权限提升漏洞挖掘思路解读

腾讯安全云鼎实验室

云原生漏洞分析

架构训练营 week7 课程总结

「架构实战营」

微信业务架构 & 学生管理系统架构

「架构实战营」

华为云FusionInsight连续三次获得第一，加速释放数据要素价值

华为云开发者联盟

大数据数据湖云原生 FusionInsight 华为云

IM单聊和群聊中的在线状态同步应该用“推”还是“拉”？

git 使用总结

git 开发工具

TDSQL | TXSQL数据库内核与特性

腾讯云数据库

tdsql 国产数据库

18M 超轻量图像识别系统，商品、车辆、人脸识别一网打尽！

「架构实战营」模块一作业

「架构实战营」

ReactNative进阶（三十六）：ES8 中 async 与 await 使用方法详解

No Silver Bullet

Async React Native await 1月月更

获奖作品公布，快来看看有没有你！

InfoQ写作社区官方

新春征文热门活动

TDSQL | 《checkpoint原理浅析》

腾讯云数据库

tdsql 国产数据库

WorkPlus赋能数字政府迈入发展新阶段

模块六

架构师实战营「架构实战营」

手把手教你在优麒麟上搭建 RISC-V 交叉编译环境

Linux 开源开发者 risc-v 优麒麟