挑战Transformer霸权？ Yan 架构竟以半价成本实现百万级参数大模型_生成式 AI_李忠良



大小：1.58M时长：09:12

1 月 24 日，岩芯数智正式发布自研大模型“Yan 模型”。Yan 模型采用非 Transformer 架构，为非 Attention 机制的通用自然语言大模型。据了解，该大模型有相较于同等参数 Transformer 的 7 倍训练效率、5 倍推理吞吐和 3 倍记忆能力。

昨日，在 ROCK AI 大模型发布会上，Yan 大模型展示了其在人工智能领域的一系列创新和优势。该模型在多个方面表现出超越当前 Transformer 技术的潜力。

首先，Yan 大模型在训练效率方面显示出惊人的成绩，据称比同等参数的 Transformer 提高了 7 倍。这意味着在更短的时间内，Yan 可以处理和学习更多的数据，这对于加快 AI 模型的发展至关重要。其次，它的推理吞吐量是 Transformer 的 5 倍，这使得处理实时数据和复杂任务变得更加高效。最引人注目的是，它拥有 3 倍于 Transformer 的记忆能力，这可能为处理大规模数据集和复杂的 AI 任务提供了全新的途径。

尽管 Yan 大模型是否会开源还有待确定，但其合作者已经可以免费使用这一架构，这无疑将促进技术的快速应用和发展。值得一提的是，基于 Yan 架构，仅需投入同等规模 Transformer 架构成本的 50% 甚至更低，就可以拥有百万参数级的大模型。

Transformer 架构的局限性

作为当前 AI 领域的一个基石，Transformer 的设计和性能已经在各种任务中被广泛验证。Transformer 是基于注意力机制的神经网络架构，现今在人工智能领域占据主导地位。它能够有效处理序列数据，极大提高翻译、识别等任务的效果。

全球人工智能热潮的许多主要模型和产品，如 GPT、LLAMA、PaLM 等，都是基于 Transformer 构建的。其通用性显著，虽最初设计用于语言翻译，但现也推动计算机视觉、机器人学、计算生物学等领域的发展。Transformer 的核心在于快速捕捉输入内容各部分间的相互作用，适用于处理句子中的片段、音乐中的音符、图像中的像素、蛋白质的部分等各种任务。

Transformer 的概念最早出现在谷歌研究人员 2017 年的论文《Attention is All You Need》中，这篇论文在短短 5 年内被引用了 3.8 万余次。它是编码器 - 解码器模型的一个特例，2-3 年前开始流行。在此之前，注意力机制只是模型的一部分，基于 LSTM（长短期记忆）和其他 RNN（循环神经网络）变体。

Transformers 的关键见解在于，注意力可以作为推导输入和输出之间依赖关系的唯一机制。

Transformer 的突破在于其对注意力的独特运用。它使模型在处理单词时能够关注与该单词密切相关的其他单词。在《Attention is All You Need》发表前，语言 AI 领域先进技术是 RNN，它按顺序处理数据，但在表达单词间远距离依赖关系时存在局限。注意力机制使模型无视距离，考虑单词间的关系，确定哪些单词和短语更值得关注。谷歌团队的突破在于完全舍弃 RNN，仅用 Attention 进行语言建模。

注意力机制最初在计算机视觉中提出，重点关注特定区域，忽略无关图像区域。它实现了语言处理的并行化，同时分析文本中的所有单词，而非顺序分析。Transformer 的并行化带来了更全面、准确的文本理解，以及高于 RNN 的计算效率和可扩展性。现代基于 Transformer 的模型以其规模为特点，能在更大的数据集上训练，使用更多参数。

尽管 Transformer 非常强大和通用，技术领域仍在寻求更高效、先进的解决方案来应对新挑战和需求。

尽管 Transformer 模型在人工智能领域取得了显著成就，但它们存在一些局限性，这促使研究者寻找更优的模型架构。Transformer 的主要局限性包括：

参数数量庞大：Transformer 模型通常含有数百万到数十亿个参数，需要大量数据进行训练，以及昂贵的计算资源，包括高性能的 GPU 或 TPU。
高昂的计算成本：标准 Transformer 模型在处理长序列时，其自注意力机制的时间和空间复杂度呈二次方增长。随着输入序列长度的增加，计算资源和时间需求成指数级增长。同时，由于参数众多和复杂的层间交互，模型在训练和推理时还需要大量内存。
长序列处理困难：Transformer 架构与序列长度呈二次方关系，处理更长的序列时，内存和计算需求急剧增加，使得处理长序列变得困难。

国内首个非 Attention 机制大模型——Yan 模型

面对 Transformer 模型在处理大参数量、高计算成本和长序列困难方面的局限性，科技界迫切寻求更高效的解决方案。这些挑战促使岩芯数智研发团队开创性地开发了 Yan 模型，一个基于非 Attention 机制的创新架构。在 ROCK AI 大模型发布会上，刘凡平详细介绍了 Yan 模型的独特优势和技术进步。

他指出，Yan 架构与 OpenAI 的 GPT 系列、Meta 的 LLaMa 系列和 Google 的 PaLM 系列等基于 Transformer 架构的模型截然不同，是一种完全独立研发的新一代技术，拥有自主知识产权。

Yan 架构的主要优势在于其训练效率和资源消耗方面的显著改进。刘凡平提到，Yan 架构的训练效率是传统 Transformer 架构的 7 倍，这大大缩短了开发周期，并显著降低了成本。这对资源有限的创业公司和中小企业尤其有利。

此外，Yan 架构在保持高效能的同时，具有高推理吞吐量的特点，能够支持更多用户的同时使用。刘凡平还强调了 Yan 架构对数据隐私的重视，支持 100% 私有化部署，这对注重数据安全的企业至关重要。

他提到，Yan 架构能够在不同平台上运行，包括大型服务器和普通消费级 CPU，这增加了其在不同规模和类型企业中的应用范围。同时，Yan 在减少大模型幻觉问题方面也取得了进展，通过增强记忆能力，提高了问题回答的准确性。

在刘凡平的介绍之后，岩芯数智 CTO 杨华对 Yan 架构进行了进一步的阐释。

杨华表示，Yan 架构不依赖于传统的注意力机制或 RNN 等序列模型。通过采用线性自然语言关联特征表示、特征关联函数和记忆算子，Yan 实现了计算复杂度的显著降低和特征表达能力的增强。Yan 通过多层叠加提高网络深度，优化了模型的学习和生成复杂信息特征的能力，从而在推理效率上取得显著提升，同时大幅降低了推理成本。

杨华还介绍了基于 Yan 架构的不同参数规模的语言模型，包括 13 亿、70 亿、480 亿参数量的模型，并强调了在大规模语料上的训练过程和方法。在性能对比中，Yan 在训练效率、推理吞吐量、资源消耗和记忆能力等多个维度上均优于传统 Transformer 模型。通过应用示例，如机器翻译、古诗续写和问答系统，Yan 展示了其实际运行能力，特别是在常规消费级 CPU 设备上的流畅运行能力。

随着发布会的结束，这些技术介绍和展示吸引了与会者的极大关注，引发了大家的广泛讨论。在随后的深入采访中，刘凡平表示，Yan 模型的设计旨在满足中小企业和大型企业合作伙伴的多样化需求。这一模型以其高效、灵活且成本效益高的特点，已经在多个行业中获得了广泛的关注和应用。

刘凡平强调，Yan 模型深受多个合作伙伴的青睐，这些合作伙伴参与了与模型相关的会议，并对其表现出浓厚的兴趣；对于中小型企业而言，Yan 模型提供了一种相对低成本的技术解决方案。它通过优化模型架构，不仅提高了训练和推理的效率，还降低了客户的总体项目成本。

此外，刘凡平也谈到，Yan 模型对于离线应用场景也具有重要意义。它能够在端侧运行，支持断网情况下的应用，这对于教育等领域尤为关键。在这些领域中，Yan 模型能够为用户提供不依赖于网络环境的稳定和高效服务。在金融和制造业领域，Yan 模型可以以低成本的方式提供智能客服解决方案，优化供应商管理和高效处理内部数据等，从而提升用户体验和运营效率。

Yan 架构的潜力与挑战

从技术介绍来看，Yan 架构无疑展示了许多潜在优势，例如其在训练效率、资源消耗、推理吞吐量以及对数据隐私的重视上的显著进步。

然而，正如历史上许多技术革新所展示的，一定程度的技术优势并不总是能够直接转化为实际应用中的成功。因此，对于 Yan 架构来说，下一步至关重要的是经受市场和行业专家的实际测试和验证。这不仅是对其技术创新的检验，也是对其在实际应用环境中可行性的考量。

我们期待看到更多来自不同背景和专业领域的专家对 Yan 架构进行深入分析和实际应用测试。进一步的，对于 Yan 架构来说，吸引和鼓励更广泛的行业参与至关重要。是否能够激发开发者、创业公司和大型企业的兴趣，将是衡量其市场潜力的关键。

发布

暂无评论

创作场景

挑战 Transformer 霸权？ Yan 架构竟以半价成本实现百万级参数大模型

Transformer 架构的局限性

国内首个非 Attention 机制大模型——Yan 模型

Yan 架构的潜力与挑战

评论

OpenHarmony支持HDMI接口声卡适配说明

Topaz Gigapixel AI for Mac激活(图片无损放大软件) v6.3.2

自动化回归测试平台 AREX Agent 源码再阅读

云纳管是什么意思？云纳管平台哪个好？

【MaxCompute】基于Package跨项目访问资源实践

看海联金汇财务共享智慧平台如何实现以数赋能智慧共享

数据高效转储，生产轻松支撑

开发神技！阿里消息中间件进阶手册限时开源，请接住我的下巴

新一代企业数字化联盟成立，“强强联手”搭建品牌服务生态

软件测试/测试开发丨学习笔记之Pytest使用

肝到头秃！百度强推并发编程笔记我爱了，原来这才叫并发

MSE 自治服务帮你快速定位解决 Dubbo 重复订阅导致 RPC 服务注册失败问题

Abaqus非线性问题预览及求解

如何构建自己的知识体系？

kafka生产者你不得不知的那些事儿

二维码在中国：学术视角下的创新与实践

BSN官方视频号更新内容汇总（2023年4月15日~5月15日）

软件测试/测试开发丨学习笔记之Selenium 常见控件定位方法

《苏丹的复仇》携手华为HMS生态，实现用户、收入双增长

惊艳！腾讯强推599页Netty进阶神技，完美诠释Netty

SpringBoot 中异步任务实现及自定义线程池执行异步任务

关于IPP Swap挖矿系统开发详情

大数据如何助力营销（5）活动复盘

并发编程-常见并发工具BlockingQueue的使用及原理解析

PoseiSwap：为何青睐 Layer3？又为何选择 Celestia 作为技术伙伴？

分投趣fintoch即将崩盘?系统开发解析！

分析元宇宙NFT/链游系统开发方案

【等保】等保全称是什么？英文咋说？

景区共享电单车让观光旅游更轻松

飞鹤乳业携手用友，引领数字化财务共享管理新时代

创作场景

挑战 Transformer 霸权？ Yan 架构竟以半价成本实现百万级参数大模型

Transformer 架构的局限性

国内首个非 Attention 机制大模型——Yan 模型

Yan 架构的潜力与挑战

评论

更多内容推荐

推荐阅读

电子书

大厂实战PPT下载