速来报名!AICon北京站鸿蒙专场~ 了解详情
写点什么

OpenAI 发布 GPT 模型规范,可作为模型微调指南

Anthony Alford I

  • 2024-06-24
    北京
  • 本文字数:1102 字

    阅读完需:约 4 分钟

OpenAI 发布 GPT 模型规范,可作为模型微调指南

OpenAI 发布 GPT 模型规范,可作为模型微调指南 OpenAI 最近发布了其模型规范,这是一份描述 GPT 模型行为规则和目标的文档。该规范可供数据标注人员和 AI 研究人员在为模型微调创建数据时使用。


该模型规范基于 OpenAI 现有内部文档,OpenAI 在他们的人类反馈强化学习(RLHF)训练中使用了这些文档。规范包含了三种类型的原则:目标、规则和默认设置。目标定义了对模型行为的广泛描述:“造福人类”。规则则更加具体,涉及到用户绝不能违反的“高风险”情况:“永远不要做 X”。最后,规范包括了默认行为,虽然它们可以被覆盖,但提供了响应的基本样式指南和处理冲突的模板。根据 OpenAI 的说法:


作为我们在集体对齐和模型安全方面工作的延续,我们打算将模型规范作为研究人员和 AI 训练者进行人类反馈强化学习的指南。我们还将探索我们的模型能够直接从模型规范中学习到怎样的程度。我们将这项工作视为正在进行的关于模型的行为、如何确定期望的模型行为以及如何让公众参与这些讨论的持续公开对话的一部分。


2022 年,OpenAI 推出 GPT-3 的微调版本 InstructGPT 。该模型使用 RLHF 对模型输出排序数据集进行微调,目的是让模型更加“对齐”用户意图,减少错误或有害的输出。从那时起,许多研究团队也对他们的 LLM 进行了类似的微调。例如,谷歌的 Gemini 模型也使用 RLHF 进行微调。Meta 的 Llama 3 也经过微调,但是采用了不同的微调方法,即直接偏好优化(DPO)。


然而,微调的关键是由人工标记器排序的具有多个输出的提示输入数据集。模型规范的部分目的是指导标注人员对输出进行排序。OpenAI 还声称正在研究直接根据模型规范自动化指令微调过程的方法。因此,模型规范的许多内容都是用户提示词以及“好”的和“坏”的响应的示例。


规范中的许多规则和默认设置旨在解决常见的 LLM 滥用问题。例如,遵循命令链规则旨在帮助防止简单的“越狱”行为,即提示模型忽略前面的指令。其他规范旨在指导模型做出响应,特别是在模型拒绝执行任务时。规范中提到:“拒绝应该用一两句话解决,不要啰嗦”。


沃顿商学院教授和 AI 研究员 Ethan Mollick 在 X 上发表了有关模型规范的帖子:


正如评论中的一些人指出的那样,Anthropic 有它自己的章程。我发现它不像声明那么有分量,也不那么清晰,因为它概述了好的内容,并告诉 AI 要做好,这让人很难理解原则之间存在怎样艰难的选择。


Anthropic 在 2022 年提出了 Constitutional AI 的概念。这个过程使用 AI 模型对输出进行排名以进行指令微调。尽管 Anthropic 的代码不是开源的,但 AI 社区 HuggingFace 基于 Anthropic 的工作发布了 Constitutional AI 的参考实现。


查看英文原文


https://www.infoq.com/news/2024/06/openai-model-spec/

2024-06-24 10:175556

评论

发布
暂无评论
发现更多内容

Week 2命题作业

balsamspear

极客大学架构师训练营

架构师训练营第 1 期 - 第四周课后练习

Anyou Liu

极客大学架构师训练营

甲方日常 29

句子

工作 随笔杂谈 日常

Netty源码解析 -- 服务端启动过程

binecy

Netty nio

MySQL-技术专题-解决死锁问题

洛神灬殇

头条终面:写个消息中间件

yes

面试 消息队列

JAVA中的内部类详解

倔强的攻城狮

Java

kubernetes是微服务发展的必然产物

架构师修行之路

Kubernetes 分布式 微服务

学习笔记:架构师训练营-第四周

四夕晖

高并发 系统架构演化

后疫情时期,看区块链如何赋能文创产业加快经济复苏?

CECBC

区块链技术 文创产业

读——沟通的艺术,看入人里,看出人外(第三章)

废材姑娘

当我在听播客时,我在听什么?

Nydia

Kubeless 架构设计 | 玩转 Kubeless

donghui

Serverless kubeless

打破区块链游戏经济的隔阂,或许该从跨游戏资产入手

CECBC

区块链 游戏

IDEA常用设置、快捷键及代码模板

jiangling500

IDEA

MySQL-技术专题-mysql的联合索引

洛神灬殇

第四周 作业二:系统架构学习总结【未陌】

a d e

系统架构 互联网架构

mybatis plus 自动更新数据库时间的小坑

废材姑娘

Java mybatis

《谛听说智能》迎来圆满落幕,企业降本增效新指南

Geek_e670ab

反向保理系统设计

森林

有状态的服务其实可以做更多的事情

架构师修行之路

分布式 微服务

图解超难理解的 Paxos 算法(含伪代码)

多颗糖

分布式 算法 分布式系统 架构师 一致性算法

【高并发】秒杀系统架构解密,不是所有的秒杀都是秒杀(升级版)!!

冰河

并发编程 高并发 架构设计 秒杀 异步

都别拦着我,我要删库了

MySQL从删库到跑路

Linux oracle重装 MySQL 运维 root

MySQL-技术专题-事务和并发一致性问题

洛神灬殇

浅析:线程安全

朱华

Java 多线程与高并发

深拷贝链表,python处理音频信号和数字信号、vim教程、swift单元测试和UI测试 John 易筋 ARTS 打卡 Week 21

John(易筋)

单元测试 ARTS 打卡计划 python 数字信号 vim教程 深拷贝链表

Week 2 学习总结

balsamspear

极客大学架构师训练营

中国首个“芯片大学”即将落地;生成对抗网络(GAN)的数学原理全解

京东科技开发者

技术 网络 GAN 芯片

第四周 作业一:系统架构【未陌】

a d e

系统架构

数字经济2.0—趋势、逻辑、选择

CECBC

区块链 数字经济

OpenAI 发布 GPT 模型规范,可作为模型微调指南_AI&大模型_InfoQ精选文章