GMTC北京站9折购票倒计时,部分日程已上线,戳此查看 了解详情
写点什么

达摩院成功研发存算一体 AI 芯片,性能提升 10 倍以上,突破冯·诺依曼架构性能瓶颈

  • 2021 年 12 月 03 日
  • 本文字数:2014 字

    阅读完需:约 7 分钟

达摩院成功研发存算一体AI芯片,性能提升10倍以上,突破冯·诺依曼架构性能瓶颈

12 月 3 日,InfoQ 获悉,达摩院成功研发新型架构芯片。


该芯片是全球首款基于 DRAM 的 3D 键合堆叠存算一体 AI 芯片,可突破冯·诺依曼架构的性能瓶颈,满足人工智能等场景对高带宽、高容量内存和极致算力的需求。在特定 AI 场景中,该芯片性能提升 10 倍以上,能效比提升高达 300 倍。

为何研发存算一体芯片?


从计算机诞生起,计算机系统就是在冯·诺依曼架构下运行。在冯·诺伊曼架构中,计算与内存是分离的,计算单元从内存中读取数据,计算完成后再存回内存。然而,随着人工智能等对性能要求极高的场景爆发,这一技术架构的短板逐渐显露,例如功耗墙、性能墙、内存墙的问题。



造成这一问题的原因主要有两点:


一是数据搬运带来了巨大的能量消耗。


数据显示,在传统架构下,数据从内存单元传输到计算单元需要的功耗是计算本身的约 200 倍,因此真正用于计算的能耗和时间其实占比很低。


二是内存的发展远远滞后于处理器的发展。


目前,处理器的算力以每两年 3.1 倍的速度增长,而内存的性能每两年只有 1.4 倍的提升。内存发展的速度严重滞后于处理器的发展速度,这就好比一个漏斗,宽的一端是处理器,而狭窄的一端则是存储器,后者的性能极大地影响了数据传输的速度,这也被认为是传统计算机的阿克琉斯之踵。


存算一体芯片是目前解决该问题的最佳途径,它类似于人脑,将数据存储单元和计算单元融合为一体,大幅减少数据搬运,从而极大提高计算并行度和能效。


这一技术早在 90 年代就被提出,但受限于技术的复杂度、高昂的设计成本,以及缺少应用场景,过去几十年业界对存算一体芯片的研究进展缓慢。


随着 AI 场景的爆发,业界迫切需要该技术来解决算力瓶颈,达摩院希望通过自研创新技术解决业界难题。

三种实现存算一体路线


实现存算一体有三种技术路线:


1.  近存储计算(Processing Near Memory):


计算操作由位于存储芯片外部的独立计算芯片完成。


2.  内存储计算(Processing In Memory):


计算操作由位于存储芯片内部的独立计算单元完成,存储单元和计算单元相互独立存在。


3. 内存执行计算(Processing With Memory):


存储芯片内部的存储单元完成计算操作,存储单元和计算单元完全融合,没有一个独立的计算单元。


其中,近存计算通过将计算资源和存储资源距离拉近,实现对能效和性能的大幅度提升,被认为是现阶段能解决内存墙问题的最佳途径。达摩院本次也是沿着这一方向进行突破。

达摩院有哪些技术创新?


HBM 是将内存和计算结合在一起的主要方案之一,但该技术受限于单位容量带宽不足和功耗高的缺点,无法有效解决内存墙问题。而混合键合(Hybrid Bonding)的 3D 堆叠技术拥有高带宽、低成本的特点,被认为是低功耗、近存计算的完美载体之一。


此次,达摩院研发的芯片首次采用混合键合(Hybrid Bonding)的 3D 堆叠技术——将计算芯片和存储芯片 face-to-face 地用特定金属材质和工艺进行互联。最终的测试芯片显示,这种存算技术和架构的优势明显,能通过拉近存储单元与计算单元的距离增加带宽,降低数据搬运的代价,缓解由于数据搬运产生的瓶颈,而且与数据中心的推荐系统对于带宽/内存的需求完美匹配。



在设计方面,该芯片内存单元采用异质集成嵌入式 DRAM,拥有超大内存容量和超大带宽优势;计算芯片方面,达摩院研发设计了流式的定制化加速器架构,对推荐系统进行“端到端”加速,包括匹配、粗排序、神经网络计算、细排序等任务。这种近存架构也有效解决了带宽受限的问题,最终内存、算法以及计算模块完美融合,大幅提升带宽的同时还实现了超低功耗,展示了近存计算在数据中心场景的潜力。


该技术的研究成果已被芯片领域顶级会议 ISSCC 2022 收录,未来可应用于 VR/AR、无人驾驶、天文数据计算、遥感影像数据分析等场景。


达摩院计算技术实验室科学家郑宏忠表示:“存算一体是颠覆性的芯片技术,它天然拥有高性能、高带宽和高能效的优势,可以从底层架构上解决后摩尔定律时代的芯片性能和能耗问题,达摩院研发的芯片将这一技术与场景紧密结合,实现了内存、计算以及算法应用的完美融合。”


据悉,达摩院计算技术实验室专注研究芯片设计方法学和新型计算机体系结构技术,已拥有多项领先成果,在 ISSCC、ISCA、MICRO、HPCA 等顶级会议上发表多篇论文。

存算一体芯片技术研究处在初期阶段


目前,整个行业对存算一体芯片技术的研究依旧处于探索阶段,在工艺成熟度、典型应用、生态系统等方面仍不成熟,达摩院希望逐步攻克技术难题,先研究基于三维堆叠的近存芯片,通过拉近存储单元与计算单元的距离、增加带宽,来降低数据搬运的代价,缓解由于数据搬运产生的瓶颈。未来,达摩院会进一步攻克存内计算技术。在应用方面,会和阿里内部业务紧密合作,未来逐步针对内部 AI 应用场景适配优化。

存算一体技术将成类脑计算关键技术


存算一体芯片在海量数据计算场景中拥有天然的优势,在终端、边缘端以及云端都有广阔的应用前景。例如 VR/AR、无人驾驶、天文数据计算、遥感影像数据分析等场景中,存算一体芯片都可以发挥高带宽、低功耗的优势。从长远来看,存算一体技术还将成为类脑计算的关键技术。

2021 年 12 月 03 日 16:422270
用户头像
刘燕 InfoQ记者

发布了 836 篇内容, 共 280.5 次阅读, 收获喜欢 1592 次。

关注

评论

发布
暂无评论
发现更多内容

作业-框架设计

arcyao

Week 6 學習總結

Christy LAW

第二周作业

孤星

架构设计学习笔记2

Arthur

极客大学架构师训练营

架构师训练营第 1 期第六周作业

Leo乐

极客大学架构师训练营

实用超参数优化

计算机与AI

学习

理解用户故事的本质

Bruce Talk

敏捷 用户故事 Product Owner

依赖倒置原则和优化设计相关

DL

架构师训练营第一期第六章总结

睡不着摇一摇

极客大学架构师训练营

Netty源码解析 -- 内存池与PoolArena

binecy

Netty 内存管理 源码解析

架构师训练营第 6 周作业

netspecial

极客大学架构师训练营

架构师训练营 1 期第 6 周:技术选型(二) - 总结

piercebn

极客大学架构师训练营

极客时间架构师培训 1 期 - 第 6周作业

Kaven

架构师训练营第 1 期 - 第六周作业提交

Todd-Lee

极客大学架构师训练营

架构师训练营第一期第六章作业-简述CAP理论

睡不着摇一摇

极客大学架构师训练营

架构师训练营第 6 周学习总结

netspecial

极客大学架构师训练营

架构师训练营作业2

Arthur

极客大学架构师训练营

架构师训练营 1 期 - 第六周总结(vaik)

行之

极客大学架构师训练营

第二周作业

晴空万里

架构师训练营第六周总结

吴传禹

极客大学架构师训练营

架构师训练营第 1 期第六周总结

Leo乐

极客大学架构师训练营

架构训练营第二周作业

一期一会

架构师训练营第 1 期 - 第六周总结

Todd-Lee

第六周作业

极客大学架构师训练营

Week 6 作業

Christy LAW

架构师训练营 1 期 - 第六周作业(vaik)

行之

极客大学架构师训练营

架构师训练营第六周作业

吴传禹

极客大学架构师训练营

极客时间架构师训练营1期-第6周总结

Kaven

架構師訓練營 week6 總結

ilake

应用这5步项目任务从分解到执行的方法和工具

boshi

项目管理 思维导图 项目排期

第二周学习总结

晴空万里

极客大学架构师训练营

达摩院成功研发存算一体AI芯片,性能提升10倍以上,突破冯·诺依曼架构性能瓶颈_AI_刘燕_InfoQ精选文章