写点什么

微软发布 Orca 2 LLM,表现优于 10 倍参数模型

作者:Anthony Alford

  • 2023-12-25
    北京
  • 本文字数:1209 字

    阅读完需:约 4 分钟

大小:591.51K时长:03:21
微软发布Orca 2 LLM,表现优于10倍参数模型

微软发布 Orca 2 LLM,这是 Llama 2 的一个调优版本,性能与包含 10 倍参数的模型相当,甚至更好。Orca 2 使用了一个合成训练数据集和一项称为 Prompt Erasure(提示词擦除) 的新技术来实现这一性能。


Orca 2 使用了师生模式的训练方案,其中一个较大、较强的 LLM 作为另一个较小的 LLM(学生)的老师,老师的目标是提升学生的性能,使其与更大模型的性能相媲美。微软的训练技术教会较小的模型多种推理技巧,并教其如何为特定任务选择最有效的技巧。为此,老师被赋予了复杂的提示词来触发某种推理行为。不过,在一种被称为 Prompt Erasure 的方案中,学生只得到任务要求和期望的响应,而不是老师的提示词。在基准测试中,一个拥有 13B 参数的 Orca 2 模型的表现超过了一个 13B 参数的基准 Llama 2 模型,提升了 47.54%。而一个拥有 7B 参数的 Orca 2 模型在推理任务方面与一个拥有 70B 参数的 Llama 2 模型相当,甚至更好。


尽管像 ChatGPT 这样的 LLM 在给定少量提示词的情况下通常表现良好,但由于其内存和计算需求较大,托管这些模型极具有挑战性。经过调优的较小的模型也可以表现良好,许多研究人员已经在研究使用较大 LLM 生成的合成数据集对它们进行训练。InfoQ 最近报道了谷歌的 Distilling Step-by-Step 方法,该方法会让老师 LLM 自动生成一个小型的调优数据集,其中包含输入和输出标签,以及为何选择输出标签的“基本原理”。InfoQ 还报道了 Stability AI 的 Stable Beluga 模型,它使用微软原始的 Orca 1 方案进行训练,该方案使用了 Explanation Tuning,其中老师 LLM 被提示“生成详细答案”。


与 Orca 1 类似,Orca 2 训练数据集是由老师 LLM 生成的,而老师 LLM 收到了详细的提示词。然而,微软新的训练方法 Cautious Reasoning 将训练任务与提示词相结合,引导老师 LLM 使用特定的问题解决策略,如“一步一步”或“解释你的答案”。然后在学生的训练过程中,老师的提示词被删除,这促使学生学会选择正确的策略。


为了评估这种方法,微软将 Orca 2 模型的性能与几个基准模型进行了比较,包括 Llama 2、ChatGPT(GPT-3.5)和 GPT-4。基准任务包括推理、语言理解、文本完成和摘要。在推理基准测试中,13B 参数 Orca 2 模型优于除 ChatGPT 和 GPT-4 之外的所有基准。他们还发现,给 Orca 2 一个“谨慎”的系统提示词(“你是一个谨慎的助手,你会仔细遵循指示”)相比无系统提示会略微提升其性能。


有几位用户在 X 上发表了关于 Orca 2 的帖子。一位用户指出:“你不需要用‘一步一步解释’这样的技巧来提示它。它自己知道。” AI 研究员 Rudi Ranck 写道


许多绝妙的想法都很简单……就像 Orca 2 中的“提示词擦除”一样:完整的提示词不会呈现给模型,而只呈现任务和答案(它过滤了生成这些答案所使用的完整提示词)。这有助于模型在更高层次上制定策略。这是一篇非常好的论文。我强烈建议通读全文。


7B13B 参数的 Orca 2 模型可在 Huggingface 上获得。


原文链接

https://www.infoq.com/news/2023/12/microsoft-orca-2-llm/

2023-12-25 11:2113670

评论

发布
暂无评论
发现更多内容

Termius for Mac(多协议远程终端管理工具)

iMac小白

Termius下载 Termius for Mac下载 Termius for Mac破解

用了 18 个月时间,做 AI 应用从 0 到 200 万用户,从亏损到盈利(4000 字全面复盘)

陈宇明

创业 程序员 AI AI应用 AI创业

【精选教程】四大网络抓包神器,总有一款适合你

雪奈椰子

特征融合与特征交互的区别

快乐非自愿限量之名

交互 交互原型

记一次某节点没有Leader的问题分析

TiDB 社区干货传送门

实践案例 故障排查/诊断 7.x 实践

写给职场新人|从迷茫到屡获殊荣的技术人成长之路

京东科技开发者

数仓的两种轻量级数据交换格式:json与jsonb

华为云开发者联盟

数据库 华为云 华为云开发者联盟 华为云GaussDB(DWS) 企业号2024年4月PK榜

高清LED显示屏在舞台应用中的惊艳效果

Dylan

活动 高清视频 LED显示屏 全彩LED显示屏 led显示屏厂家

数据治理的五大误区与破解方法

郑州埃文科技

数据治理

尝鲜 TiDB 企业管理器TEM 2.1.3 新版本

TiDB 社区干货传送门

监控

油猴Safari浏览器插件:Tampermonkey中文

iMac小白

两种解法搞定Swap Nodes in Pairs算法题

EquatorCoco

算法

QSDK QCN9274/QCN6274 vs. MTK MT7915: A Comparative Analysis

wifi6-yiyi

IPQ8072 WiFi7 ipq9574

高效的 API 自动化测试

Liam

Jmeter 自动化测试 API测试 测试工具 API 自动化测试

Topaz Gigapixel AI v7.1.1激活版 mac/win

iMac小白

工程中实践的微服务设计模式

京东科技开发者

十分钟学会微调大语言模型

EquatorCoco

人工智能 自然语言处理 语言模型

Kafka 线上性能调优

不在线第一只蜗牛

kafka 分布式

网站的静态资源怎么获取?

不在线第一只蜗牛

网站 静态资源

克魔助手抓包工具完整教程

RocketMQ 存储机制浅析

字节跳动云原生计算

RocketMQ

云PBX的相关介绍

cts喜友科技

通信 通讯 云通讯

Uniswap丨justswap丨pancakeswap去中心化薄饼交易所系统开发

区块链软件开发推广运营

dapp开发 区块链开发 链游开发 NFT开发 公链开发

携手打造开放AI生态,英特尔助力千行百业数智化变革

E科讯

百度智能云宣布国内首家支持Llama3全系列训练推理

科技热闻

TiDB 版本升级常见问题处理(v6.0 及以上版本)

TiDB 社区干货传送门

版本升级 故障排查/诊断

AI从入门到入门之手写数字识别模型java方式Dense全连接神经网络实现

京东科技开发者

Optimism 黑客松大赛获奖名单公布

Footprint Analytics

AI gamefi Optimism

加密货币交易所开发成本:2024 年完整指南

区块链软件开发推广运营

dapp开发 区块链开发 链游开发 NFT开发 公链开发

天花板!充值运营平台限时返场!

开源物联卡管理平台-设备管理

物联网 IoT eSIM安全 java 技术提升

微软发布Orca 2 LLM,表现优于10倍参数模型_微软_InfoQ精选文章