一台CS-1性能顶1000个GPU?史上最大AI芯片Cerebras WSE正式投入使用

2019 年 11 月 21 日

一台CS-1性能顶1000个GPU?史上最大AI芯片Cerebras WSE正式投入使用

外媒消息,当地时间11月19日,Cerebras Systems公司在Supercomputing 2019上正式推出搭载有 Cerebras WSE (史上最大的AI芯片)的计算产品Cerebras CS-1。目前,第一款CS-1 已经交付,并在美国能源部的 Argonne 国家实验室部署完成,Argonne将使用CS-1帮助发现癌症疗法并了解黑洞。



CS-1 的高度为 67 厘米,其性能是 Google TPU2 系统的三倍,后者占用的空间是前者的 29 倍


在 Supercomputing 2019 上,Cerebras Systems 公司推出了 CS-1,Cerebras Systems 的首席执行官 Andrew Feldman 表示,该系统是目前“最快的 AI 计算机”。


CS-1 旨在加快新型和大型神经网络的训练速度,该过程通常需要数周或更长时间,但 CS-1 却可以凭借 Cerebras WSE 将这项任务缩减至几分钟甚至几秒钟。虽然 Cerebras 声称一台 CS-1 可以提供超过 1000 个高性能 GPU 的性能,但 Cerebras 并没有提供根据标准 AI 基准(例如新的MLPerf标准)测试的性能数据。


Feldman 在接受VentureBeat采访时说到:“即使我们拥有最大、最快的芯片,但我们知道出色的处理器不一定能够提供优秀的性能,它需要构建一个专用的系统。就比如,您不能通过将法拉利发动机放入大众汽车中进而获得法拉利性能。”


换句话说,WSE 之类的高级处理器必须与专用的硬件系统和软件结合在一起,才能突破性能的瓶颈。正是因为这样,Cerebras CS-1 系统和 Cerebras 软件平台在各个方面都是为了加速 AI 计算而设计的。Cerebras 表示,CS-1 不仅从根本上减少了训练时间,而且为推理延迟设定了新的标准。对于深度神经网络,单个图像分类可以在几微秒内完成,比其他解决方案快数千倍。



CS-1 拆解图


Cerebras WSE



Cerebras WSE 是全世界有史以来最大的 AI 芯片,由 Cerebras Systems 公司在今年 8 月份推出,这款芯片的面积为 462.25 平方厘米,拥有 1.2 万亿个晶体管和 40 万个优化内核,不仅面积是目前最大 Nvidia GPU 的近 60 倍,晶体管总数量也是后者的 50 余倍。


Feldman 声称:“虽然 GPU 非常优秀,但最初它是为了图形而设计的,并不是深度学习,但我们的系统在各个方面却是针对深度学习调整和优化的,所以我们的系统将与英伟达 GPU 产生激烈的竞争。”


CS-1 系统



Tirias Research 的首席分析师 Kevin Krewell 在一份声明中表示:“ CS-1 是一个单一系统,它可以提供比最大集群更高的性能,而没有集群设置和管理的开销。” 事实上,通过在单一系统中进行如此多的计算,CS-1 不仅可以缩短模型的训练时间,还能减少系统的整体部署时间,进而提升 AI 研究生产率。


GPU 集群通常需要数周或数月的设置,而且还有可能对现有的模型进行大量修改,并会消耗数十个数据中心机架,甚至还需要复杂的专有 InfiniBand 进行集群。CS-1 则完全不同,它的建立仅需要几分钟的时间。用户只需将基于标准的 100Gb 以太网链路插入交换机,就可以获得足够的算力,进行模型的训练。


Cerebras 软件平台



Cerebras 软件平台旨在让机器学习研究人员不更改现有工作流程的前提下,就可以充分利用 CS-1 的性能。他们可以使用行业标准的 ML 框架(例如 TensorFlow 和 PyTorch)为 CS-1 定义模型。


Cerebras 软件平台的图形编译器可自动将这些模型转换为 CS-1 的优化可执行文件,开发者可以通过平台利用丰富的工具集实现直观的模型调试和性能分析。


所以,总而言之,Cerebras 软件平台主要有四个部分:


  • ML框架集成,如TensorFlow和PyTorch。

  • 脑图编辑器 Cerebras Graph Compiler(CGC)。

  • 灵活的高性能内核库和内核API。

  • 用于调试和性能分析的开发工具。


脑图编译器 Cerebras Graph Compiler


脑图编译器(CGC)将开发者指定的神经网络作为输入。为了获得最大的熟练度和灵活性,Cerebras 软件平台允许研究人员使用现有的 ML 框架,或是以其他编程语言(如 C、Python)编写的图形算法,来为 CS-1 编写代码。


CGC 通过从源语言中提取静态图形表示并将其转换为大脑线性代数中间表示(CLAIR),并开始将深度学习网络转换为优化后的可执行文件。随着 ML 框架快速发展以适应该领域的需求,这种一致的输入抽象允许 CGC 迅速支持新框架和性能,而不需要对底层编译器进行更改。


CGC 使用其独特的 WSE 体系结构知识,将计算和内存资源分配到图的每个部分,然后再将它们映射到计算数组。最后,将每个网络特有的通信路径配置到 fabric 上。


由于 WSE 的规模巨大,神经网络中的每一层都可以同时放置在结构上,并同时并行运算。这种实现全模型加速的方法是 WSE 独有的——没有其他设备有足够的片上内存在单个芯片上同时容纳所有层,也没有巨大的高带宽和低延迟通信优势,这些只有在 WSE 上才可能实现。


最终的结果是一个 CS-1 可执行文件,根据每个神经网络的独特需求进行定制,这样所有的 400,000 个计算内核和 18GB 的片上 SRAM 都可以最大限度地用于加速深度学习应用。


开发工具和 API


CGC 与流行的 ML 框架集成意味着像 TensorBoard 这样的流行工具可以“开箱即用”。此外,Cerebras 还提供了一套功能齐全的调试和分析工具,使深入的开发变得更加容易。


比如,Cerebras 提供了一个调试套件,它允许查看编译和培训运行的每个步骤。而对于需要更大灵活性和自定义功能的高级开发人员,Cerebras 提供了基于 LLVM 的内核 API 和 C / C ++编译器,允许用户为 CGC 编程自定义内核。结合大量的硬件文档、示例内核和内核开发的最佳实践,Cerebras 为用户提供了他们需要的工具来创建新的内核,以满足独特的研究需求。


2019 年 11 月 21 日 08:302115
用户头像
张之栋 InfoQ编辑

发布了 91 篇内容, 共 33.0 次阅读, 收获喜欢 151 次。

关注

评论

发布
暂无评论
发现更多内容

Week 12 學習總結

--------世界中心---------

智慧公安大数据分析研判系统开发,合成作战平台建设

WX13823153201

ETH场外交易系统开发流程丨ETH场外交易开发源码案例

系统开发咨询1357O98O718

ETH场外交易系统开发

「奇淫技巧」如何写最少的代码

Kerwin

Java 代码设计 代码技巧

架构师训练营 12 周笔记

郎哲158

架构师训练营 1 期 - 第 十二周总结(vaik)

行之

极客大学架构师训练营

SpringBoot系列(6)- 测试

引花眠

spring springboot

架构师训练营 - 第12周

袭望

第三周总结

ty

Week_12 总结

golangboy

极客大学架构师训练营

第十二周 学习总结

熊桂平

极客大学架构师训练营

与前端训练营的日子 --Week07

SamGe

学习

智天下APP系统开发|智天下软件开发

开發I852946OIIO

系统开发

Java并发编程:多线程并发内存模型

码农架构

Java并发

ARTS打卡 第25周

引花眠

微服务 ARTS 打卡计划 springboot

week8-作业一

week8-作业二-根据当周学习情况,完成一篇学习总结

第十二周 作业

熊桂平

极客大学架构师训练营

架构1期 第十二周作业

haha

架构师训练营 12 周作业

郎哲158

架构师训练营 2 期 Week08 作业

Calvin

ARTS打卡 第27周

引花眠

微服务 ARTS 打卡计划 springboot

第十二周 数据应用(一)总结

钟杰

极客大学架构师训练营

第12周作业

paul

Week 12 作業

--------世界中心---------

第十二周 架构方法学习总结 —— 数据应用

兵长

区块链钱包系统开发方案丨多币种钱包系统开发详情

系统开发咨询1357O98O718

区块链钱包开发

三金本体挖矿模式系统开发丨三金本体平台源码设计

系统开发咨询1357O98O718

三金本体挖矿模式源码

架构师训练营 2 期 Week08 总结

Calvin

ARTS打卡 第26周

引花眠

微服务 ARTS 打卡计划 springboot

减肥为什么会失败,有可能是因为你仍然在摄入容易消化的食用糖。

叶小鍵

科普 减肥、廋身 盖里·陶比斯 加工食用糖

一台CS-1性能顶1000个GPU?史上最大AI芯片Cerebras WSE正式投入使用-InfoQ