开工福利|免费学 2200+ 精品线上课,企业成员人人可得! 了解详情
写点什么

微软发布 Orca 2 LLM,表现优于 10 倍参数模型

作者:Anthony Alford

  • 2023-12-25
    北京
  • 本文字数:1209 字

    阅读完需:约 4 分钟

大小:591.51K时长:03:21
微软发布Orca 2 LLM,表现优于10倍参数模型

微软发布 Orca 2 LLM,这是 Llama 2 的一个调优版本,性能与包含 10 倍参数的模型相当,甚至更好。Orca 2 使用了一个合成训练数据集和一项称为 Prompt Erasure(提示词擦除) 的新技术来实现这一性能。


Orca 2 使用了师生模式的训练方案,其中一个较大、较强的 LLM 作为另一个较小的 LLM(学生)的老师,老师的目标是提升学生的性能,使其与更大模型的性能相媲美。微软的训练技术教会较小的模型多种推理技巧,并教其如何为特定任务选择最有效的技巧。为此,老师被赋予了复杂的提示词来触发某种推理行为。不过,在一种被称为 Prompt Erasure 的方案中,学生只得到任务要求和期望的响应,而不是老师的提示词。在基准测试中,一个拥有 13B 参数的 Orca 2 模型的表现超过了一个 13B 参数的基准 Llama 2 模型,提升了 47.54%。而一个拥有 7B 参数的 Orca 2 模型在推理任务方面与一个拥有 70B 参数的 Llama 2 模型相当,甚至更好。


尽管像 ChatGPT 这样的 LLM 在给定少量提示词的情况下通常表现良好,但由于其内存和计算需求较大,托管这些模型极具有挑战性。经过调优的较小的模型也可以表现良好,许多研究人员已经在研究使用较大 LLM 生成的合成数据集对它们进行训练。InfoQ 最近报道了谷歌的 Distilling Step-by-Step 方法,该方法会让老师 LLM 自动生成一个小型的调优数据集,其中包含输入和输出标签,以及为何选择输出标签的“基本原理”。InfoQ 还报道了 Stability AI 的 Stable Beluga 模型,它使用微软原始的 Orca 1 方案进行训练,该方案使用了 Explanation Tuning,其中老师 LLM 被提示“生成详细答案”。


与 Orca 1 类似,Orca 2 训练数据集是由老师 LLM 生成的,而老师 LLM 收到了详细的提示词。然而,微软新的训练方法 Cautious Reasoning 将训练任务与提示词相结合,引导老师 LLM 使用特定的问题解决策略,如“一步一步”或“解释你的答案”。然后在学生的训练过程中,老师的提示词被删除,这促使学生学会选择正确的策略。


为了评估这种方法,微软将 Orca 2 模型的性能与几个基准模型进行了比较,包括 Llama 2、ChatGPT(GPT-3.5)和 GPT-4。基准任务包括推理、语言理解、文本完成和摘要。在推理基准测试中,13B 参数 Orca 2 模型优于除 ChatGPT 和 GPT-4 之外的所有基准。他们还发现,给 Orca 2 一个“谨慎”的系统提示词(“你是一个谨慎的助手,你会仔细遵循指示”)相比无系统提示会略微提升其性能。


有几位用户在 X 上发表了关于 Orca 2 的帖子。一位用户指出:“你不需要用‘一步一步解释’这样的技巧来提示它。它自己知道。” AI 研究员 Rudi Ranck 写道


许多绝妙的想法都很简单……就像 Orca 2 中的“提示词擦除”一样:完整的提示词不会呈现给模型,而只呈现任务和答案(它过滤了生成这些答案所使用的完整提示词)。这有助于模型在更高层次上制定策略。这是一篇非常好的论文。我强烈建议通读全文。


7B13B 参数的 Orca 2 模型可在 Huggingface 上获得。


原文链接

https://www.infoq.com/news/2023/12/microsoft-orca-2-llm/

2023-12-25 11:2113689

评论

发布
暂无评论
发现更多内容

IoT 物联网平台如何实现 100万/秒 消息广播?——实践类

阿里云AIoT

小程序 监控 物联网 传感器 测试技术

宣布 Databricks 支持 Amazon Graviton2,性价比提高3倍

亚马逊云科技 (Amazon Web Services)

数据库 存储

第七周作业-王者荣耀商城异地多活架构设计

不爱学习的程序猿

F5 分布式云服务为软银集团的私有基础设施带来云原生能力

F5 Inc

CodeArts Repo:6大特性助力企业代码稳定可靠安全无忧

华为云开发者联盟

云计算 后端 华为云 企业号 2 月 PK 榜 华为云开发者联盟

有奖调研!第五期(2022-2023)传统行业云原生技术落地调研——金融篇

York

容器 微服务 云原生 问卷调研

模块7作业

程序员小张

「架构实战营」

Python基础练习题(一)

漫步桔田

2023年Java面试题精选(蚂蚁金服/滴滴/美团/拼多多腾讯)

架构师之道

java面试

被骂惨了!复旦版「MOSS」服务器挤崩,一口吃不成ChatGPT

引迈信息

人工智能 AI ChatGPT MOSS

接地电阻要小于4Ω,你知道是为什么吗?

元器件秋姐

科普 元器件 电阻 接地电阻

如何将Excel文档转换为PDF文档

Geek_249eec

Java Excel PDF

A/B测试成为企业“新窗口”:增长盈利告别经验主义,数据科学才是未来

字节跳动数据平台

大数据 AB testing实战 企业号 2 月 PK 榜

2023“Java基础-中级-高级”面试集结,已奉上我的膝盖

程序知音

Java java面试 金三银四 后端技术 Java面试八股文

NFTScan x TiDB丨一栈式 HTAP 数据库为 Web3 数据服务提供毫秒级多维查询

NFT Research

数据库 NFT

任务管理-轻松搞定 IoT 设备重启、资源包更新、固件升级等业务——实践类

阿里云AIoT

json 物联网 数据格式

Java单元测试浅析(JUnit+Mockito)

京东科技开发者

Java 单元测试 代码 JUnit Mockito

DevEco Studio端云协同开发之云数据库

白晓明

云数据库 HarmonyOS 端云协同

MQTT 5.0介绍

EMQ映云科技

性能 物联网 IoT mqtt 企业号 2 月 PK 榜

PDF电子书下载 和 企业物联网实例 视频讲解——实践类

阿里云AIoT

运维 监控 物联网

如何有效的解决代码的圈复杂度

京东科技开发者

代码 计算 圈复杂度 点边计算

Zebec生态持续深度布局,ZBC通证月内翻倍或只是开始

鳄鱼视界

研发效能DevOps推荐书单

laofo

DevOps cicd 研发效能 持续交付

MQTT协议Keep Alive详解

EMQ映云科技

物联网 IoT mqtt 企业号 2 月 PK 榜 半连接

天翼云推出爬虫管理,助力企业安全高效发展

Geek_2d6073

有没有夫妻相?刷一下脸就知道!

华为云开发者联盟

人工智能 华为云 企业号 2 月 PK 榜 华为云开发者联盟

深入理解跳表及其在Redis中的应用

京东科技开发者

redis 数据结构 算法 跳表 链接

chatGPT接入微信公众号方法总结(纯聊技术)

特立独行的猫

微信 ChatGPT 公众号接入

基于SpringBoot实现操作GaussDB(DWS)的项目实战

华为云开发者联盟

数据库 后端 华为云 企业号 2 月 PK 榜 华为云开发者联盟

瓴羊Quick BI提供移动端自助分析整体解决方案,Fine BI、Smart BI何时赶上?

小偏执o

数据治理如何做?火山引擎DataLeap帮助这款产品3个月降低计算成本20%

字节跳动数据平台

大数据 数据治理 数据研发 企业号 2 月 PK 榜

微软发布Orca 2 LLM,表现优于10倍参数模型_微软_InfoQ精选文章