QCon北京「鸿蒙专场」火热来袭!即刻报名,与创新同行~ 了解详情
写点什么

微软发布 Orca 2 LLM,表现优于 10 倍参数模型

作者:Anthony Alford

  • 2023-12-25
    北京
  • 本文字数:1209 字

    阅读完需:约 4 分钟

大小:591.51K时长:03:21
微软发布Orca 2 LLM,表现优于10倍参数模型

微软发布 Orca 2 LLM,这是 Llama 2 的一个调优版本,性能与包含 10 倍参数的模型相当,甚至更好。Orca 2 使用了一个合成训练数据集和一项称为 Prompt Erasure(提示词擦除) 的新技术来实现这一性能。


Orca 2 使用了师生模式的训练方案,其中一个较大、较强的 LLM 作为另一个较小的 LLM(学生)的老师,老师的目标是提升学生的性能,使其与更大模型的性能相媲美。微软的训练技术教会较小的模型多种推理技巧,并教其如何为特定任务选择最有效的技巧。为此,老师被赋予了复杂的提示词来触发某种推理行为。不过,在一种被称为 Prompt Erasure 的方案中,学生只得到任务要求和期望的响应,而不是老师的提示词。在基准测试中,一个拥有 13B 参数的 Orca 2 模型的表现超过了一个 13B 参数的基准 Llama 2 模型,提升了 47.54%。而一个拥有 7B 参数的 Orca 2 模型在推理任务方面与一个拥有 70B 参数的 Llama 2 模型相当,甚至更好。


尽管像 ChatGPT 这样的 LLM 在给定少量提示词的情况下通常表现良好,但由于其内存和计算需求较大,托管这些模型极具有挑战性。经过调优的较小的模型也可以表现良好,许多研究人员已经在研究使用较大 LLM 生成的合成数据集对它们进行训练。InfoQ 最近报道了谷歌的 Distilling Step-by-Step 方法,该方法会让老师 LLM 自动生成一个小型的调优数据集,其中包含输入和输出标签,以及为何选择输出标签的“基本原理”。InfoQ 还报道了 Stability AI 的 Stable Beluga 模型,它使用微软原始的 Orca 1 方案进行训练,该方案使用了 Explanation Tuning,其中老师 LLM 被提示“生成详细答案”。


与 Orca 1 类似,Orca 2 训练数据集是由老师 LLM 生成的,而老师 LLM 收到了详细的提示词。然而,微软新的训练方法 Cautious Reasoning 将训练任务与提示词相结合,引导老师 LLM 使用特定的问题解决策略,如“一步一步”或“解释你的答案”。然后在学生的训练过程中,老师的提示词被删除,这促使学生学会选择正确的策略。


为了评估这种方法,微软将 Orca 2 模型的性能与几个基准模型进行了比较,包括 Llama 2、ChatGPT(GPT-3.5)和 GPT-4。基准任务包括推理、语言理解、文本完成和摘要。在推理基准测试中,13B 参数 Orca 2 模型优于除 ChatGPT 和 GPT-4 之外的所有基准。他们还发现,给 Orca 2 一个“谨慎”的系统提示词(“你是一个谨慎的助手,你会仔细遵循指示”)相比无系统提示会略微提升其性能。


有几位用户在 X 上发表了关于 Orca 2 的帖子。一位用户指出:“你不需要用‘一步一步解释’这样的技巧来提示它。它自己知道。” AI 研究员 Rudi Ranck 写道


许多绝妙的想法都很简单……就像 Orca 2 中的“提示词擦除”一样:完整的提示词不会呈现给模型,而只呈现任务和答案(它过滤了生成这些答案所使用的完整提示词)。这有助于模型在更高层次上制定策略。这是一篇非常好的论文。我强烈建议通读全文。


7B13B 参数的 Orca 2 模型可在 Huggingface 上获得。


原文链接

https://www.infoq.com/news/2023/12/microsoft-orca-2-llm/

2023-12-25 11:2113721

评论

发布
暂无评论
发现更多内容

Java-技术专题-LocalDate和LocalTime和LocalDateTime

码界西柚

手撕面试题:多个线程顺序执行问题

大头星

Java 面试 多线程

TronChain波场链合约系统开发技术

薇電13242772558

区块链 智能合约

直播带货需要运营者实名验证:规范行业有利于健康发展

石头IT视角

架构师训练营第六周作业

Shunyi

极客大学架构师训练营

Redis可以做哪些事?

Java旅途

redis

JavaScript 对象 — 重学 JavaScript

三钻

Java 大前端 对象

程序员什么时候就该辞职了?

Java架构师迁哥

京东推荐系统中的兴趣拓展如何驱动业务持续增长?

京东科技开发者

算法 推荐系统 知识图谱

英特尔第十一代处理器 (代号Rocket Lake-S) 架构详情

E科讯

用上ConcurrentHashMap,就没有并发问题了?

海拉鲁

Java 并发

JVM 源码解读之 CMS GC 触发条件

AI乔治

Java 架构 JVM GC

使用 Maven Archetype 基于 IDEA 快速创建项目

程序员小航

Java maven 开发 项目 Archetype

第二周总结

小兵

Week 6 命题作业

阿泰

Java-技术专题-Object克隆方法解析

码界西柚

K近邻算法:机器学习萌新必学算法

华为云开发者联盟

学习 算法

叼!阿里Mysql三位封神专家总结800页性能优化的千金良方

996小迁

Java MySQL 编程 架构 面试

Mac/Windows 连接 Ubuntu 的 samba 服务器

jiangling500

ubuntu Mac windows Samba

Javassist实现JDK动态代理

AI乔治

Java 编程 架构 jdk

GitHub上最励志的计算机自学教程(重制版),前端小白到亚马逊工程师

沉默王二

GitHub 学习 程序员 面试

第二周作业

小兵

LeetCode题解:78. 子集,递归+for循环+回溯,JavaScript,详细注释

Lee Chen

算法 大前端 LeetCode

Java-技术专题-volatile关键字

码界西柚

架构师训练营 - 第 6、7、8、9、10 、11、12、13周学习总结(1 期)

阿甘

从实际案例聊聊Java应用的GC优化

AI乔治

Java 编程 架构 JVM GC

创新方案百花齐放,英特尔助力2020 EdgeX中国挑战赛推动智能边缘行业创新及人才发展

E科讯

对抗验证概述

计算机与AI

学习 数据验证

架构师训练营 -week06-作业

大刘

极客大学架构师训练营

蚂蚁金服首发887页Java面试宝典!还原真实面试情景+面试题

Java架构追梦

Java 编程 架构 面试 蚂蚁金服

【得物技术】一文读懂Vue生命周期

得物技术

Vue 生命周期 得物技术部 得物 钩子函数

微软发布Orca 2 LLM,表现优于10倍参数模型_微软_InfoQ精选文章