微软发布Orca 2 LLM，表现优于10倍参数模型_微软

AICon上海｜与字节、阿里、腾讯等企业共同探索Agent 时代的落地应用了解详情 



 写点什么



大小：591.51K时长：03:21

微软发布 Orca 2 LLM，这是 Llama 2 的一个调优版本，性能与包含 10 倍参数的模型相当，甚至更好。Orca 2 使用了一个合成训练数据集和一项称为 Prompt Erasure（提示词擦除） 的新技术来实现这一性能。

Orca 2 使用了师生模式的训练方案，其中一个较大、较强的 LLM 作为另一个较小的 LLM（学生）的老师，老师的目标是提升学生的性能，使其与更大模型的性能相媲美。微软的训练技术教会较小的模型多种推理技巧，并教其如何为特定任务选择最有效的技巧。为此，老师被赋予了复杂的提示词来触发某种推理行为。不过，在一种被称为 Prompt Erasure 的方案中，学生只得到任务要求和期望的响应，而不是老师的提示词。在基准测试中，一个拥有 13B 参数的 Orca 2 模型的表现超过了一个 13B 参数的基准 Llama 2 模型，提升了 47.54%。而一个拥有 7B 参数的 Orca 2 模型在推理任务方面与一个拥有 70B 参数的 Llama 2 模型相当，甚至更好。

尽管像 ChatGPT 这样的 LLM 在给定少量提示词的情况下通常表现良好，但由于其内存和计算需求较大，托管这些模型极具有挑战性。经过调优的较小的模型也可以表现良好，许多研究人员已经在研究使用较大 LLM 生成的合成数据集对它们进行训练。InfoQ 最近报道了谷歌的 Distilling Step-by-Step 方法，该方法会让老师 LLM 自动生成一个小型的调优数据集，其中包含输入和输出标签，以及为何选择输出标签的“基本原理”。InfoQ 还报道了 Stability AI 的 Stable Beluga 模型，它使用微软原始的 Orca 1 方案进行训练，该方案使用了 Explanation Tuning，其中老师 LLM 被提示“生成详细答案”。

与 Orca 1 类似，Orca 2 训练数据集是由老师 LLM 生成的，而老师 LLM 收到了详细的提示词。然而，微软新的训练方法 Cautious Reasoning 将训练任务与提示词相结合，引导老师 LLM 使用特定的问题解决策略，如“一步一步”或“解释你的答案”。然后在学生的训练过程中，老师的提示词被删除，这促使学生学会选择正确的策略。

为了评估这种方法，微软将 Orca 2 模型的性能与几个基准模型进行了比较，包括 Llama 2、ChatGPT（GPT-3.5）和 GPT-4。基准任务包括推理、语言理解、文本完成和摘要。在推理基准测试中，13B 参数 Orca 2 模型优于除 ChatGPT 和 GPT-4 之外的所有基准。他们还发现，给 Orca 2 一个“谨慎”的系统提示词（“你是一个谨慎的助手，你会仔细遵循指示”）相比无系统提示会略微提升其性能。

有几位用户在 X 上发表了关于 Orca 2 的帖子。一位用户指出：“你不需要用‘一步一步解释’这样的技巧来提示它。它自己知道。” AI 研究员 Rudi Ranck 写道：

许多绝妙的想法都很简单……就像 Orca 2 中的“提示词擦除”一样：完整的提示词不会呈现给模型，而只呈现任务和答案（它过滤了生成这些答案所使用的完整提示词）。这有助于模型在更高层次上制定策略。这是一篇非常好的论文。我强烈建议通读全文。

7B 和 13B 参数的 Orca 2 模型可在 Huggingface 上获得。

原文链接：

https://www.infoq.com/news/2023/12/microsoft-orca-2-llm/

发布

暂无评论

创作场景

微软发布 Orca 2 LLM，表现优于 10 倍参数模型

评论

CNCF首个云原生多云容器编排项目Karmada正式晋级孵化

JAVA基于物联网技术的智慧校园电子班牌原生微信小程序源码

云教室服务器配置详解

如何创建逼真的3D模型

最佳实践 | 第七在线智能采购计划助力全渠道销售决策

数据中台即服务——数据中台的四大支柱

云数据库RDS MySQL和ClickHouse 同步攻略

Hudi 在 vivo 湖仓一体的落地实践

无需专有硬件 XSKY星辰天合 XDcache 大幅提升文件写性能

认证LeSS实践者课程 - 2024.1，广州

软件测试/人工智能|教你掌握 Conda 的基本用法

摆脱Excel 寻求现代零售智能化管理的出路

GLB/GLTF 模型压缩轻量化

中国如何才能出世界级零售企业？

单日30PB量级！火山引擎ByteHouse云原生的数据导入这么做

跨境电商通讯服务

软件测试/人工智能|解决Selenium中的异常问题：“error sending request for url”

数据中台的业务价值和技术价值

分布式基础概念-消息中间件[Kafka]

11种编程语言中，返回多个不同类型的方法样例

38 | 分治算法：谈一谈大规模计算框架MapReduce中的分治思想

数据驱动国有企业数智化转型，平台底座将发挥重要作用

软件测试/人工智能|Edge浏览器实用插件推荐

从技术角度分析如何选择灰度测试方式

如何删除/替换3D模型的材质贴图

模型放置到3D场景中后模型位置与鼠标选中的位置不一致怎么办？

创作场景

微软发布 Orca 2 LLM，表现优于 10 倍参数模型

评论

更多内容推荐

推荐阅读

电子书

大厂实战PPT下载