写点什么

挑战 Transformer 霸权? Yan 架构竟以半价成本实现百万级参数大模型

Yan 模型为国内首个非 Attention 机制的通用自然语言大模型。

  • 2024-01-25
    北京
  • 本文字数:3219 字

    阅读完需:约 11 分钟

大小:1.58M时长:09:12
挑战Transformer霸权? Yan 架构竟以半价成本实现百万级参数大模型

1 月 24 日,岩芯数智正式发布自研大模型“Yan 模型”。Yan 模型采用非 Transformer 架构,为非 Attention 机制的通用自然语言大模型。据了解,该大模型有相较于同等参数 Transformer 的 7 倍训练效率、5 倍推理吞吐和 3 倍记忆能力。


昨日,在 ROCK AI 大模型发布会上,Yan 大模型展示了其在人工智能领域的一系列创新和优势。该模型在多个方面表现出超越当前 Transformer 技术的潜力。


首先,Yan 大模型在训练效率方面显示出惊人的成绩,据称比同等参数的 Transformer 提高了 7 倍。这意味着在更短的时间内,Yan 可以处理和学习更多的数据,这对于加快 AI 模型的发展至关重要。其次,它的推理吞吐量是 Transformer 的 5 倍,这使得处理实时数据和复杂任务变得更加高效。最引人注目的是,它拥有 3 倍于 Transformer 的记忆能力,这可能为处理大规模数据集和复杂的 AI 任务提供了全新的途径。


尽管 Yan 大模型是否会开源还有待确定,但其合作者已经可以免费使用这一架构,这无疑将促进技术的快速应用和发展。值得一提的是,基于 Yan 架构,仅需投入同等规模 Transformer 架构成本的 50% 甚至更低,就可以拥有百万参数级的大模型。

Transformer 架构的局限性


作为当前 AI 领域的一个基石,Transformer 的设计和性能已经在各种任务中被广泛验证。Transformer 是基于注意力机制的神经网络架构,现今在人工智能领域占据主导地位。它能够有效处理序列数据,极大提高翻译、识别等任务的效果。


全球人工智能热潮的许多主要模型和产品,如 GPT、LLAMA、PaLM 等,都是基于 Transformer 构建的。其通用性显著,虽最初设计用于语言翻译,但现也推动计算机视觉、机器人学、计算生物学等领域的发展。Transformer 的核心在于快速捕捉输入内容各部分间的相互作用,适用于处理句子中的片段、音乐中的音符、图像中的像素、蛋白质的部分等各种任务。


Transformer 的概念最早出现在谷歌研究人员 2017 年的论文《Attention is All You Need》中,这篇论文在短短 5 年内被引用了 3.8 万余次。它是编码器 - 解码器模型的一个特例,2-3 年前开始流行。在此之前,注意力机制只是模型的一部分,基于 LSTM(长短期记忆)和其他 RNN(循环神经网络)变体。


Transformers 的关键见解在于,注意力可以作为推导输入和输出之间依赖关系的唯一机制。


Transformer 的突破在于其对注意力的独特运用。它使模型在处理单词时能够关注与该单词密切相关的其他单词。在《Attention is All You Need》发表前,语言 AI 领域先进技术是 RNN,它按顺序处理数据,但在表达单词间远距离依赖关系时存在局限。注意力机制使模型无视距离,考虑单词间的关系,确定哪些单词和短语更值得关注。谷歌团队的突破在于完全舍弃 RNN,仅用 Attention 进行语言建模。


注意力机制最初在计算机视觉中提出,重点关注特定区域,忽略无关图像区域。它实现了语言处理的并行化,同时分析文本中的所有单词,而非顺序分析。Transformer 的并行化带来了更全面、准确的文本理解,以及高于 RNN 的计算效率和可扩展性。现代基于 Transformer 的模型以其规模为特点,能在更大的数据集上训练,使用更多参数。


尽管 Transformer 非常强大和通用,技术领域仍在寻求更高效、先进的解决方案来应对新挑战和需求。

尽管 Transformer 模型在人工智能领域取得了显著成就,但它们存在一些局限性,这促使研究者寻找更优的模型架构。Transformer 的主要局限性包括:


  • 参数数量庞大:Transformer 模型通常含有数百万到数十亿个参数,需要大量数据进行训练,以及昂贵的计算资源,包括高性能的 GPU 或 TPU。

  • 高昂的计算成本:标准 Transformer 模型在处理长序列时,其自注意力机制的时间和空间复杂度呈二次方增长。随着输入序列长度的增加,计算资源和时间需求成指数级增长。同时,由于参数众多和复杂的层间交互,模型在训练和推理时还需要大量内存。

  • 长序列处理困难:Transformer 架构与序列长度呈二次方关系,处理更长的序列时,内存和计算需求急剧增加,使得处理长序列变得困难。


国内首个非 Attention 机制大模型——Yan 模型


面对 Transformer 模型在处理大参数量、高计算成本和长序列困难方面的局限性,科技界迫切寻求更高效的解决方案。这些挑战促使岩芯数智研发团队开创性地开发了 Yan 模型,一个基于非 Attention 机制的创新架构。在 ROCK AI 大模型发布会上,刘凡平详细介绍了 Yan 模型的独特优势和技术进步。



他指出,Yan 架构与 OpenAI 的 GPT 系列、Meta 的 LLaMa 系列和 Google 的 PaLM 系列等基于 Transformer 架构的模型截然不同,是一种完全独立研发的新一代技术,拥有自主知识产权。


Yan 架构的主要优势在于其训练效率和资源消耗方面的显著改进。刘凡平提到,Yan 架构的训练效率是传统 Transformer 架构的 7 倍,这大大缩短了开发周期,并显著降低了成本。这对资源有限的创业公司和中小企业尤其有利。


此外,Yan 架构在保持高效能的同时,具有高推理吞吐量的特点,能够支持更多用户的同时使用。刘凡平还强调了 Yan 架构对数据隐私的重视,支持 100% 私有化部署,这对注重数据安全的企业至关重要。


他提到,Yan 架构能够在不同平台上运行,包括大型服务器和普通消费级 CPU,这增加了其在不同规模和类型企业中的应用范围。同时,Yan 在减少大模型幻觉问题方面也取得了进展,通过增强记忆能力,提高了问题回答的准确性。


在刘凡平的介绍之后,岩芯数智 CTO 杨华对 Yan 架构进行了进一步的阐释。



杨华表示,Yan 架构不依赖于传统的注意力机制或 RNN 等序列模型。通过采用线性自然语言关联特征表示、特征关联函数和记忆算子,Yan 实现了计算复杂度的显著降低和特征表达能力的增强。Yan 通过多层叠加提高网络深度,优化了模型的学习和生成复杂信息特征的能力,从而在推理效率上取得显著提升,同时大幅降低了推理成本。


杨华还介绍了基于 Yan 架构的不同参数规模的语言模型,包括 13 亿、70 亿、480 亿参数量的模型,并强调了在大规模语料上的训练过程和方法。在性能对比中,Yan 在训练效率、推理吞吐量、资源消耗和记忆能力等多个维度上均优于传统 Transformer 模型。通过应用示例,如机器翻译、古诗续写和问答系统,Yan 展示了其实际运行能力,特别是在常规消费级 CPU 设备上的流畅运行能力。


随着发布会的结束,这些技术介绍和展示吸引了与会者的极大关注,引发了大家的广泛讨论。在随后的深入采访中,刘凡平表示,Yan 模型的设计旨在满足中小企业和大型企业合作伙伴的多样化需求。这一模型以其高效、灵活且成本效益高的特点,已经在多个行业中获得了广泛的关注和应用。


刘凡平强调,Yan 模型深受多个合作伙伴的青睐,这些合作伙伴参与了与模型相关的会议,并对其表现出浓厚的兴趣;对于中小型企业而言,Yan 模型提供了一种相对低成本的技术解决方案。它通过优化模型架构,不仅提高了训练和推理的效率,还降低了客户的总体项目成本。


此外,刘凡平也谈到,Yan 模型对于离线应用场景也具有重要意义。它能够在端侧运行,支持断网情况下的应用,这对于教育等领域尤为关键。在这些领域中,Yan 模型能够为用户提供不依赖于网络环境的稳定和高效服务。在金融和制造业领域,Yan 模型可以以低成本的方式提供智能客服解决方案,优化供应商管理和高效处理内部数据等,从而提升用户体验和运营效率。

Yan 架构的潜力与挑战


从技术介绍来看,Yan 架构无疑展示了许多潜在优势,例如其在训练效率、资源消耗、推理吞吐量以及对数据隐私的重视上的显著进步。


然而,正如历史上许多技术革新所展示的,一定程度的技术优势并不总是能够直接转化为实际应用中的成功。因此,对于 Yan 架构来说,下一步至关重要的是经受市场和行业专家的实际测试和验证。这不仅是对其技术创新的检验,也是对其在实际应用环境中可行性的考量。


我们期待看到更多来自不同背景和专业领域的专家对 Yan 架构进行深入分析和实际应用测试。进一步的,对于 Yan 架构来说,吸引和鼓励更广泛的行业参与至关重要。是否能够激发开发者、创业公司和大型企业的兴趣,将是衡量其市场潜力的关键。

2024-01-25 16:077333

评论

发布
暂无评论
发现更多内容

Docker技术全景:推动云原生架构的关键力量

快乐非自愿限量之名

Docker 容器 云原生

OGNL表达式注入分析 _

EquatorCoco

Java 开发语言

代码审查最佳实践

俞凡

Code Review

温馨提示:不注意这几点,PDT(产品开发团队)就得散!

IPD产品研发管理

产品 IPD 产品研发 研发团队 软件研发

探索海外应用加速的作用与优势

Ogcloud

网络加速 企业网络 海外网络加速 海外应用加速

知识图谱智能问答系统技术实现

悦数图数据库

可视化学习:实现Canvas图片局部放大镜

不在线第一只蜗牛

可视化 canvas 项目开发

DR9274-5GK|QCN9224 QCN9274 QCN6274 WiFi7 Lower Power Consumption Network Card

wallyslilly

qcn9274 qcn6274 QCN9224

最新体育赛事直播系统源码、示例演示链接及其功能介绍

软件开发-梦幻运营部

智能消息推送SDK产品:移动APP拉新促活的利器

MobTech袤博科技

苹果Mac电脑最好用的markdown写作软件:Ulysses for Mac最新激活

iMac小白

海信电视E5N Pro,以新质生产力焕新美好视听体验

脑极体

海信

【亚马逊云科技】使用 Vscode Amazon-Q 完成 GUI 界面粉笔脚本开发

亚马逊云科技 (Amazon Web Services)

探索Django REST框架构建强大的API

华为云开发者联盟

华为云 华为云开发者联盟 API 开发 web 开发

2024 年多链代币开发对您的业务有何好处

区块链软件开发推广运营

dapp开发 区块链开发 链游开发 NFT开发 公链开发

Python数据库编程全指南SQLite和MySQL实践

快乐非自愿限量之名

Python MySQL 数据库

一文聊透数字化转型,获得企业未来生存的入场券

同道说

产品 架构 数据 趋势 数字化

使用有威胁情报库的SCDN,提供更好的DDOS防护

德迅云安全杨德俊

SD-WAN网络构建要点简述

Ogcloud

SD-WAN 企业网络 SD-WAN组网 SD-WAN服务商 SDWAN

选择全球直播专线考虑的因素有哪些?

Ogcloud

海外直播专线 海外直播 海外直播网络 全球直播专线 全球直播网络

HN 热帖|替换 Redis 的一场赛跑

小猿姐

数据库 redis 开源协议

Mac上非常好用的软件序列号查询工具:KCNScrew for mac激活版

iMac小白

Beyond Compare 4 中文版 「Macos文件同步对比工具」

iMac小白

Bartender 5 for Mac:菜单栏图标管理软件

iMac小白

Flink 中 Slot 机制详解:概念、原理与开发实践

木南曌

flink 实时计算

入围中国大模型 + 知识管理最佳案例 15 强,杭州悦数 x 中国船舶项目收获认可!

悦数图数据库

图数据库

2024鲸鸿动能开发者变现服务沙龙首站启幕

最新动态

支持M1、IntelliJ IDEA 2023.3.6中文版 附 激活版

iMac小白

一张二维码VS一个行李箱?!看华为云时习知如何助力防城港核电基本安全考试

华为云PaaS服务小智

云计算 数字化转型 华为云

快麦ERP中采购单在旺店通中同步退货

RestCloud

零代码 ERP APPlink 自动化集成

挑战Transformer霸权? Yan 架构竟以半价成本实现百万级参数大模型_生成式 AI_李忠良_InfoQ精选文章