写点什么

阿里首提前向训练框架:让大模型深度思考,可快速定制专属模型

阿里巴巴

  • 2023-06-28
    北京
  • 本文字数:1720 字

    阅读完需:约 6 分钟

阿里首提前向训练框架:让大模型深度思考,可快速定制专属模型

大语言模型(LLM)是当前自然语言处理领域最核心的技术,以 GPT-4 为代表的大语言模型展现出了类人的学习能力。其中,情境学习(In-context Learning)是大语言模型最神秘的能力之一。如下图所示,在这种情境学习的范式下,大模型无需更新任何参数,仅依赖几个示例样本(demonstrations)就可以学习新任务,执行新样本的预测。



得益于这种范式的存在,使得大模型可以仅通过修改指令(prompt)和示例 (demonstrations)就在某个具体任务上达到不错的效果,然而当前的情境学习仅通过输入一次示例的方式来进行任务的归纳与推理,存在很大的局限。首先,这种单轮的策略与人类类比学习的决策过程并不一致。

 

在认知学中,人类通常通过迭代式的思维过程(例如,分析示例、反思示例和形成抽象概念)执行类比学习。可以考虑让大模型通过“思考更长时间”或者“多次思考”,来提升情境学习的能力。其次,一些相关工作指出,情境学习与传统神经网络训练的梯度下降有潜在的联系,一次大模型前向的过程完成了一次隐式的梯度下降,可以看作执行了一次训练。这进一步表明,可以通过多次(迭代)前向训练演示来提高情境学习的效果,让大模型和人类一样,拥有深度思考的过程。



阿里首创前向训练框架


为此,阿里研究团队在《Iterative Forward Tuning Boosts In-context Learning in Language Models》论文中率先提出了一个新的大模型情境学习框架——Deep-Thinking。


论文:https://arxiv.org/abs/2305.13016

代码: https://github.com/AlibabaResearch/DAMO-ConvAI/tree/main/deep-thinking

Demo: https://modelscope.cn/studios/huybery/deep-thinking/summary

 

Deep-Thinking 与传统情境学习不同,它分为两个阶段。第一个阶段为思考阶段,仅将示例作为大模型的输入,然后通过多次迭代来让大模型进行前向“训练/思考”,模拟人类不断地观察与学习示例样本。为了做到前向训练,研究团队借助 self-attention 中的 Key, Value 矩阵作为一种“元梯度”。

 

具体来说,需要执行多个步骤优化过程。在某一次具体的优化过程中,研究团队改造 self-attention 的前向机制,对  Key, Value 矩阵执行了更新 (update) 与 合并 (concat) 操作。更新操作通过当前步骤的元梯度与历史累积到的元梯度进行积累,产生新的元梯度。而合并操作将元梯度进行合并,让网络更深层地表示受到元梯度的增益。需要强调的是,这个过程不依赖反向传播,所以能够大大地降低大模型的训练的成本。第二个阶段为推理阶段,输入待预测的样本与训练阶段产生的最终元梯度,最终执行预测。



Deep-Thinking 拥有两个优势,一方面通过第一阶段的思考可以有效提升下游任务的效果,另一方面,在第二阶段预测时仅需要输入预测的样本与第一阶段学习的产物(K,V 矩阵),无需输入大量的自然语言示例,可以有效节约显存并提升推理速度。


效果


为了评估 Deep-Thinking 相比传统情景学习的优势,该团队评测四种 LLM 的不同尺寸,共 20 个模型在 10 个数据集上的效果,发现都有较好的提升,在某些情况下甚至能得到几十个点的相对提升。



除了定量的评估外,该团队还执行了一些有趣的分析,Deep-thinking 的优化过程和传统的梯度下降优化展现出了一系列有趣的现象:首先,Deep-thinking 也存在类似过拟合的现象,如果迭代过程过多,将会导致效果下降,可以通过引入小规模的验证集来选择合适的迭代次数,这与传统优化中的 Epoch 概念类似;其次,Deep-thinking 的梯度范式也呈现出了与梯度下降相同的趋势,比如更浅的层收敛更快,对学习率敏感等。



展望


传统的模型优化依赖于反向传播算法,但这种方法需要大量的计算资源和庞大的数据集,使得大模型的训练与微调成本非常高昂,成为大模型落地的阻碍之一。

 

而阿里研究团队提出的 Deep-thinking 是一种迭代式的前向训练框架,摒弃了反向传播的依赖,这将允许用户和企业在具体的任务上低成本的优化大模型效果。企业往往需要保护用户数据的安全性,但同时也需要让模型具备针对特定任务的学习能力。利用 Deep-thinking ,企业可以在不共享大量数据的前提下,根据自身需求快速训练和优化专属模型。这对于提高模型的个性化适应性和隐私保护具有重要意义,这项技术有潜力成为大模型落地的最佳实践。

2023-06-28 17:334025
用户头像
赵钰莹 极客邦科技 总编辑

发布了 884 篇内容, 共 651.6 次阅读, 收获喜欢 2680 次。

关注

评论

发布
暂无评论
发现更多内容

关于TPM营销费用管理,品牌快消企业最关心的问题都在这里

赛博威科技

营销数字化 投资分析 数字营销 营销管理 预算管理信息化

和鲸科技:国家气象信息中心人工智能气象应用基础支撑技术平台正式上线

ModelWhale

人工智能 AI 气象 地球科学 国家气象中心

快速加入Health Kit,一文了解审核流程

HarmonyOS SDK

huawei HarmonyOS

Filecoin挖矿系统开发技术讲解

V\TG【ch3nguang】

区块链矿机挖矿钱包系统app开发

V\TG【ch3nguang】

又一重磅利好来袭!Zebec Payroll 集成至 Nautilus Chain 主网

BlockChain先知

恭喜!龙蜥获得 2023 大学生操作系统设计赛二等奖及特殊贡献奖

OpenAnolis小助手

开源 操作系统 龙蜥社区 获奖 全国大学生系统能力大赛

企业如何高效平滑迁移数据?火山引擎DataLeap上线整库搬迁解决方案

字节跳动数据平台

数据中台 数据治理 数据安全 数据研发 企业号9月PK榜

打造次世代分析型数据库(三):列存表最佳实践

腾讯云大数据

数据库

度小满CTO许冬亮:大模型时代需警惕中小金融机构“技术掉队”

科技热闻

抖音开放平台上线新能力!延伸内容价值助力开发者高效获客

科技热闻

又一重磅利好来袭!Zebec Payroll 集成至 Nautilus Chain 主网

股市老人

最高提升10倍性能!揭秘火山引擎ByteHouse查询优化器实现方案

字节跳动数据平台

数据库 大数据 云原生 数仓 企业号9月PK榜

Apache IoTDB 毕业三周年!纪念T恤+表情包免费来袭~

Apache IoTDB

Serverless 数仓技术与挑战 - 张雁飞|3306π

Databend

PWA V.S. 小程序,该如何选?

FinFish

小程序容器 PWA 小程序技术 小程序容器技术

JetBrains推出RustRover 为开发者打造更高效易用的Rust IDE

科技热闻

现成直播拍卖软件源码,搭建开发上线资料

软件开发-梦幻运营部

软件测试/测试开发丨venv 环境管理 学习笔记

测试人

软件测试 虚拟环境 venv

华为Mate 60抢火车票也“遥遥领先”,负一屏抢票享满减!

最新动态

Mybatis sql参数自动填充

源字节1号

开源 软件开发 前端开发 后端开发 小程序开发

DAPP 开发区块链技术分析

V\TG【ch3nguang】

又一重磅利好来袭!Zebec Payroll 集成至 Nautilus Chain 主网

石头财经

专业开发矿机挖矿系统模式|区块链DAPP挖矿模式开发

V\TG【ch3nguang】

技术科普:汽车开放系统架构AUTOSAR

DevOps和数字孪生

汽车 AUTOSAR

XR扩展现实的最新趋势-云流化技术

3DCAT实时渲染

云流化 CLOUDXR

打造高能低碳电脑,英特尔与合作伙伴都做了什么?

E科讯

极狐GitLab CI x Vault,做好企业密钥安全合规管理

极狐GitLab

gitlab cicd 安全 cli vault

【Java入门】交换数组中两个元素的位置

SoFlu-JavaAI开发助手

代码 java; 程序员‘’ 软件开发、

如何使用极狐GitLab 支持 ISO 27001 合规

极狐GitLab

DevOps gitlab ISO 组织控制 技术控制

挖矿矿机系统APP开发平台

V\TG【ch3nguang】

阿里首提前向训练框架:让大模型深度思考,可快速定制专属模型_阿里巴巴_InfoQ精选文章