QCon北京「鸿蒙专场」火热来袭!即刻报名,与创新同行~ 了解详情
写点什么

OpenAI 发布 GPT 模型规范,可作为模型微调指南

Anthony Alford I

  • 2024-06-24
    北京
  • 本文字数:1102 字

    阅读完需:约 4 分钟

OpenAI 发布 GPT 模型规范,可作为模型微调指南

OpenAI 发布 GPT 模型规范,可作为模型微调指南 OpenAI 最近发布了其模型规范,这是一份描述 GPT 模型行为规则和目标的文档。该规范可供数据标注人员和 AI 研究人员在为模型微调创建数据时使用。


该模型规范基于 OpenAI 现有内部文档,OpenAI 在他们的人类反馈强化学习(RLHF)训练中使用了这些文档。规范包含了三种类型的原则:目标、规则和默认设置。目标定义了对模型行为的广泛描述:“造福人类”。规则则更加具体,涉及到用户绝不能违反的“高风险”情况:“永远不要做 X”。最后,规范包括了默认行为,虽然它们可以被覆盖,但提供了响应的基本样式指南和处理冲突的模板。根据 OpenAI 的说法:


作为我们在集体对齐和模型安全方面工作的延续,我们打算将模型规范作为研究人员和 AI 训练者进行人类反馈强化学习的指南。我们还将探索我们的模型能够直接从模型规范中学习到怎样的程度。我们将这项工作视为正在进行的关于模型的行为、如何确定期望的模型行为以及如何让公众参与这些讨论的持续公开对话的一部分。


2022 年,OpenAI 推出 GPT-3 的微调版本 InstructGPT 。该模型使用 RLHF 对模型输出排序数据集进行微调,目的是让模型更加“对齐”用户意图,减少错误或有害的输出。从那时起,许多研究团队也对他们的 LLM 进行了类似的微调。例如,谷歌的 Gemini 模型也使用 RLHF 进行微调。Meta 的 Llama 3 也经过微调,但是采用了不同的微调方法,即直接偏好优化(DPO)。


然而,微调的关键是由人工标记器排序的具有多个输出的提示输入数据集。模型规范的部分目的是指导标注人员对输出进行排序。OpenAI 还声称正在研究直接根据模型规范自动化指令微调过程的方法。因此,模型规范的许多内容都是用户提示词以及“好”的和“坏”的响应的示例。


规范中的许多规则和默认设置旨在解决常见的 LLM 滥用问题。例如,遵循命令链规则旨在帮助防止简单的“越狱”行为,即提示模型忽略前面的指令。其他规范旨在指导模型做出响应,特别是在模型拒绝执行任务时。规范中提到:“拒绝应该用一两句话解决,不要啰嗦”。


沃顿商学院教授和 AI 研究员 Ethan Mollick 在 X 上发表了有关模型规范的帖子:


正如评论中的一些人指出的那样,Anthropic 有它自己的章程。我发现它不像声明那么有分量,也不那么清晰,因为它概述了好的内容,并告诉 AI 要做好,这让人很难理解原则之间存在怎样艰难的选择。


Anthropic 在 2022 年提出了 Constitutional AI 的概念。这个过程使用 AI 模型对输出进行排名以进行指令微调。尽管 Anthropic 的代码不是开源的,但 AI 社区 HuggingFace 基于 Anthropic 的工作发布了 Constitutional AI 的参考实现。


查看英文原文


https://www.infoq.com/news/2024/06/openai-model-spec/

2024-06-24 10:175694

评论

发布
暂无评论
发现更多内容

第一篇测试

童童

架构训练营

Modus串行链路系统电气特性:2线-Modus、4线-Modus、RS232-Modus和RS485-Modus的特性

不脱发的程序猿

通信协议 4月日更 Modus 串行链路 RS232、RS485

HikariCP-技术专题-配置介绍和使用

码界西柚

HDFS的垃圾桶机制

五分钟学大数据

hadoop 4月日更

入门物联网嵌入式才是关键!

cdhqyj

技术 编程语言 物联网 嵌入式 系统

硬核!阿里内部这份《Java面试核心知识手册》在Github上已获赞高达89.7K!

Java架构之路

Java 程序员 架构 面试 编程语言

理论 + 标准 + 工程 —— 阿里云视频云编码优化的思考与发现

阿里云CloudImagine

阿里云 视频编码 视频算法 视频处理

聪明人的训练(十四)

Changing Lin

4月日更

想来百万流量技术公众号发布文章吗? InfoQ 开放内容平台了!

InfoQ写作社区官方

热门活动

APM-技术专题-监控系统选型

码界西柚

APM 监控

卧槽,误删数据库了,会被开除吗?

AI乔治

Java 数据库 sql 架构 SQL语法

最全 MongoDB 基础教程

若尘

数据库 mongodb mongo

1小时破千万点击量!阿里巴巴首发:Java核心框架指导手册

Java架构追梦

Java 阿里巴巴 架构 面试 核心框架

阿里巴巴云原生 etcd 服务集群管控优化实践

阿里巴巴云原生

容器 运维 云原生 k8s 存储

Flume高阶自定义组件

大数据技术指南

大数据 flume 4月日更

非科班毕业生,五面阿里:四轮技术面+HR一面已拿offer

码农之家

Java 编程 程序员 互联网 面试

小厂逆袭美团|5年经验|一二三面经,已拿offer|

Java架构追梦

Java 架构 面试 美团Offer

想来百万流量技术公众号发布文章吗? InfoQ 开放内容平台了!

xiaotan

InfoQ 的朋友们 热门活动

iOS--面试题:多线程

ios 面试 多线程

PHP自动加载原理

Sakura

4月日更

Modbus协议在串行链路上的实现

不脱发的程序猿

通信协议 物联网常用协议 4月日更 Modbus 串行通信

Android面试送分题:大厂经典高频面试题体系化集合,实战篇

欢喜学安卓

android 程序员 面试 移动开发

2021金三银四:狂刷398道Java最新MySQL笔记;成功收获9个Offer

比伯

Java MySQL 编程 架构 计算机

从中国企业进入IEC最高决策机构,看科技领先的产业价值与用户价值

脑极体

LeetCode题解:剑指 Offer 49. 丑数,三指针,JavaScript,详细注释

Lee Chen

算法 大前端 LeetCode

7年Java经验|面20+家公司|已拿16个offer|面经总结|

Java架构追梦

Java 架构 面试 20+大厂面经

入职字节跳动那一天,我哭了(蘑菇街被裁,奋战7个月拿下offer)

Java架构追梦

Java 架构 字节跳动 面试

JVM-技术专题-方法区中常量池分析

码界西柚

JVM 常量池

android热修复基本原理,15分钟的字节跳动视频面试,满满干货指导

欢喜学安卓

android 程序员 面试 移动开发

博云入选2021爱分析·产业数字化厂商全景报告

BoCloud博云

云计算 云原生 PaaS 博云

spring中让你眼前一亮的代码技巧

AI乔治

Java spring 架构 微服务

OpenAI 发布 GPT 模型规范,可作为模型微调指南_AI&大模型_InfoQ精选文章