速来报名!AICon北京站鸿蒙专场~ 了解详情
写点什么

1 个芯片顶英伟达 3 个?这个偏爱印度的创始人爆肝 8 年,终于等来抢英伟达泼天富贵的一天!

  • 2024-06-24
    北京
  • 本文字数:4122 字

    阅读完需:约 14 分钟

大小:1.99M时长:11:35
1个芯片顶英伟达3个?这个偏爱印度的创始人爆肝8年,终于等来抢英伟达泼天富贵的一天!

据报道,在 AI 领域与英伟达正面竞争的高性能计算机芯片初创公司 Cerebras Systems 已经向美国证券监管机构提交了保密文件,准备在纳斯达克证交所开启自己的首轮公开募股(IPO)。

 

消息最先由 The Information 网站传出,其中援引一位参与决策的匿名人士的发言,称 IPO 预计将在今年晚些时候进行。

 

Cerebras Systems 是一家专业且颇具能力的计算机芯片生产商,成立于 2016 年,主要面向 AI 及高性能计算(HPC)类工作负载。过去一年以来,该公司曾多次登上头条新闻,声称其芯片不仅比英伟达的图形处理单元更强大,而且成本效益也更加出色。今年 4 月,Cerebras Systems 以 285 亿人民币的企业估值入选《2024·胡润全球独角兽榜》。

凭什么跟英伟达掰手腕?

 

英伟达已经成长为当今世界市值最高的公司,甚至一度没有“之一”,而其背后的驱动力主要是生成式 AI 热潮,而这股浪潮丝毫没有放缓的迹象。随着世界各地企业争相将强大的 AI 工具整合进自己的系统和应用程序当中,他们开始疯狂采购 GPU,并在过去一年间将英伟达的数据中心业务收入推高超 400%。

 

尽管有能力站在英伟达对面与其竞争的对手不多,但 Cerebras 正是其中之一。他们的旗舰产品、全新 WSE-3 处理器发布于今年 3 月,底子则是 2021 年首次亮相的前代 WSE-2 芯片组。

 

Cerebras 的 WSE-3 芯片被认为是英伟达强大 GPU 产品的替代。

 

WSE-3 采用 5 纳米制程工艺,在晶体管数量上达到了惊人的 4 万亿,比其前代芯片多出 1.4 万亿个晶体管,拥有超过 90 万个计算核心和 44 GB 的片载静态随机存取存储器。外部用户可以灵活选择 1.5TB、12TB、甚至高达 1200TB 的内存容量。

 

根据这家初创公司的介绍,WSE-3 的核心数量达到单张英伟达 H100 GPU 的 52 倍。这款芯片将作为数据中心设备 CS-3 的核心器件,而 CS-3 的尺寸与小型冰箱差不多。WSE-3 芯片则跟批萨饼大小相当,还配有集成的冷却与电源传输模块。

 

尽管在核心数量和缓存容量的增幅上并不突出,但 WSE-3 的性能表现却实现了质的飞跃。Cerebras WSE-3 据称峰值浮点运算速率可达 125 PFLOPS(PetaFLOPS,千万亿次每秒),即一天内就能够完成 Llama 700 亿参数的训练任务。Cerebras 表示,这样的规格足以让 WSE-3 与英伟达旗下最顶尖的 GPU 相匹敌。该公司解释称,其芯片性能卓越,能够以更快的速度、更低的功耗高效处理 AI 工作负载。

 

该款芯片预计将于今年晚些时候上市。

大模型训练:CS-3 VS B200

 


Cerebras CS-3 和 B200 对比

 

训练大型 AI 模型时,性能的首要决定因素是浮点性能。凭借 90 万个专用 AI 核心,Cerebras CS-3 采用行业标准 FP16 精度,实现了 125 PFLOPS 。而单个 Nvidia B200 GPU 是 4.4 PFLOPS,8 个 GPU 的 DGX B200 是 36 PFLOPS。

 

”在原始性能方面,单个 CS-3 相当于 3.5 个 DGX B200 服务器,但是占用的空间更小,功耗只有原来的一半,编程模型也非常简单。”



人工智能开发经常遇到内存限制的问题,OOM(内存不足)经常导致训练失败。万亿参数规模的模型只会加剧这个问题——需要 TB 级内存、数百个 GPU 和复杂的模型代码来管理内存和编排训练。

 

为此,Cerebras 硬件没有采用 GPU 最强“辅助”HBM(High Bandwidth Memory)方式,而是采用了独特的分解内存架构,并设计了名为 MemoryX 的专用外部存储设备来存储权重。MemoryX 使用闪存和 DRAM 以及自定义软件堆栈,以最小的延迟管道加载/存储请求。

 

“我们 1200TB 超大规模 SKU 专为 GPT-5 及更高版本而设计,可训练 24 万亿参数的大模型。它的内存容量比 B200 GPU 多 6,000 倍,比 DGX B200 多 700 倍,比全机架 NVL72 多 80 倍。”该公司提到。

 

另外,CS-3 的分解式内存架构可以将数 PB 的内存连接到单个加速器,使其在处理大型模型时具有极高的硬件效率。


高互连性能对于多芯片的高利用率至关重要。DGX B200 等 GPU 服务器是通过 NVLink 实现。NVLink 是一种专有互连,可在服务器内部的 8 个 GPU 之间提供专用链接。CS-3 互连系统则采用完全不同的技术构建:在晶圆上布线将数十万个内核连接在一起,以最低的功耗提供最高性能。

 

“CS-3 为 90 万个核心提供每秒 27 PB 的总带宽,这比 1800 台 DGX B200 服务器的带宽还要高。”该公司表示。

 

另外在上个月,Cerebras 还与桑迪亚国家实验室、劳伦斯利弗莫尔国家实验室以及洛斯阿拉莫斯国家实验室的研究人员合作,在毫秒级速度下展示了上代 WSE-2 硬件进行原子级材料模拟时的性能表现。在相关研究论文中,该公司提到 WSE-2 的性能水平惊人,模拟速度可达到配备 3.9 万张英伟达 GPU 的便于最强超级计算机 Frontier 的 179 倍。

 

该公司产品与战略高级副总裁 And Hock 在上个月接受采访时指出,“简单堆叠任何数量的 GPU 都不可能获得这样的结果。我们正在根本上为分子动力学研究解锁新的时间尺度。”

 

创始人:公司被 AMD 收购后再创业

 

Cerebras 是一支由先驱计算机架构师、计算机科学家、深度学习研究人员以及热爱无畏工程的各类工程师组成的团队,目前已在加拿大和日本分别设立了办事处。

 

提到这家公司的创始团队,不得不提 2012 年被 AMD 以 3.34 亿美元收购的微型服务器公司 SeaMicro。

 

这次收购在当年也引发了很大关注,被评“对低功耗服务器领域来说具有颠覆性意义”,因为 SeaMicro 一直在其下一代服务器中使用英特尔芯片,SeaMicro 的网络结构允许数百个低功耗处理器协同工作。SeaMicro 架构与处理器无关,这意味着它可以快速适应 AMD 的技术。

 

而 SeaMicro 创始人 Andrew Feldman 也是如今 Cerebras 的联合创始人兼 CEO。

 

Andrew 拥有斯坦福大学的学士学位和工商管理硕士学位。在 2007 年创立 SeaMicro 之前,Andrew 是 Force10 Networks 的产品管理、营销和业务拓展副总裁,该公司后来以 8 亿美元的价格出售给戴尔。在加入 Force10 Networks 之前,Andrew 曾担任 RiverStone Networks 的营销和企业发展副总裁(从公司成立到 2001 年 IPO)。

 

值得注意的是,Andrew 认为印度是 Cerebras 的优先事项,理由是该国拥有巨大的工程人才、顶尖大学和不断发展的人工智能生态系统。

 

该公司的 CTO Gary Lauterbach 也是 SeaMicro 的联合创始人,后来也同样加入了 AMD。 Gary 是计算机架构大牛,曾担任 Sun SPARC Ⅲ和 UltraSPARC Ⅳ微处理器的首席架构师。在 Sun 实验室,他是 DARPA HPCS Petascale 计算项目的首席架构师,他本人拥有 50 多项专利。SeaMicro 微服务器领域的领先技术也离不开 Gary。在 SeaMicro 工作期间,Gary 还是美国能源部 930 万美元节能计算拨款的首席研究员。

 

Andrew 和 Gary 两人共事已超过 12 年。

 

另一位技术负责人 Sean Lie 也曾在 SeaMicro 公司担任 IO 虚拟化结构 ASIC 的首席硬件架构师。

 

Sean 拥有麻省理工学院电子工程和计算机科学学士学位和硕士学位,并在计算机体系结构方面拥有 16 项专利。在 SeaMicro 被 AMD 收购后,Sean 成为 AMD 研究员和首席数据中心架构师。早期职业生涯中,他在 AMD 的高级架构团队工作了五年。

 


Cerebras 还聘请了有超过 24 年执行领导经验的 Vinay Srinivas 担任软件工程高级副总裁。

 

Vinay 拥有印度理工学院孟买分校的学士学位以及佛罗里达大学的硕士学位和博士学位。他曾在 Synopsys(一家美国电子设计自动化公司) 工作了 12 年,离职前担任仿真产品线的工程副总裁。早前,Vinay 还曾分别在 Archpro Design Automation 、Sequence Design 担任研发副总裁。

 

首席运营官 Dhiraj Mallick 之前也曾担任 SeaMicro 的工程副总裁,公司被收购后他继续在 AMD 担任公司副总裁和服务器解决方案部门总经理。他拥有超过 20 年的领导经验,在加入 Cerebras 前是英特尔价值 200 亿美元的数据中心业务的首席技术官和架构副总裁。同时,Dhiraj 还担任了几家风险投资公司顾问,并拥有斯坦福大学的电气工程硕士学位。

 

Cerebras Systems 的产品管理副总裁 Andy Hock 此前是高分辨率卫星制造商 Skybox Imaging 的高级技术总监,该公司后来被谷歌以 5 亿美元收购。收购后,他继续在谷歌担任产品经理。Andy 拥有加州大学洛杉矶分校地球物理和空间物理学博士学位,在加入 Skybox 之前是 Arete Associates 的高级项目经理、业务开发主管和高级科学家。

 

被资本看好

 

考虑到英伟达这位竞争对手在过去一年间取得的令人瞩目的收益,Cerebras 作为少数能够与之竞争的芯片制造商之一,自然有理由受到投资者们的热烈追捧。

 

Constellation Rsearch 公司的 Holger Mueller 表示,如果 Cerebras 真像其宣称的那样具有竞争力,完全有可能在华尔街金融市场上引发轰动。

 

Mueller 解释道,“英伟达前阵子刚刚成为全球市值最高的上市公司。面对这泼天的富贵,竞争态势也开始快速加剧,包括不少来自传统芯片行业以外的竞争对手。Cerebras 确实有可能成为英伟达的潜在竞争对手,他们在芯片的制造和销售方面采取了差异化的发展路线,而且似乎有望吸引到足量资金以投入到这场耗资甚巨的 AI 军备竞赛当中。”

 

截至目前,该公司已累计融资 7.2 亿美元,估值约为 42 亿-50 亿美元。

 

在其官网的投资者一栏中,还可以看到 OpenAI 的身影,比如 Sam Altman、Greg Brockman、Ilya Sutskever 等,其中 Altman 曾参与 Cerebras 的 8000 万美元 D 轮融资,Cerebras 在官网将其列在投资人的第一位。


在 The Information 的报道中,消息人士透露称为了进一步吸引投资者,Cerebras 已经通知公司注册地特拉华州的监管机构,他们计划为即将到来的 F1 轮融资提供优先股。与上一轮融资相比,其股票发行价将有“大幅折扣”,希望借此增强上市发行的吸引力。

 

尽管 Cerebras 本身对其 IPO 计划讳莫如深,但彭博社此前报道称,该公司已经选择花旗集团作为其上市领投银行。在与多家 IPO 咨询机构进行多次讨论后,Cerebras 最终选择了这家银行。报道还提到,该公司的目标是最早在 2024 年下半年上市,且预期市值至少应高于其 2021 年最新一轮 2.5 亿美元 F 轮融资时对应的 40 亿美元估值。

 

消息人士还在 The Information 报道中指出,Cerebras IPO 的具体细节尚未确定,可能会根据投资者们的实际反应做出调整。

 

参考链接:

https://siliconangle.com/2024/06/20/ai-chipmaker-cerebras-systems-competitor-nvidia-reportedly-files-ipo/

https://www.cerebras.net/blog/cerebras-cs-3-vs-nvidia-b200-2024-ai-accelerators-compared

https://www.theinformation.com/articles/cerebras-an-nvidia-challenger-files-for-ipo-confidentially?offer=rtsu-engagement-24&utm_campaign=RTSU+-+Cerebras+IPO&utm_content=4480&utm_medium=email&utm_source=cio&utm_term=3006

2024-06-24 16:327003

评论 1 条评论

发布
用户头像
read
2024-06-27 13:48 · 广东
回复
没有更多了
发现更多内容

手把手带你初探Vue 3.0 | 京东物流技术团队

京东科技开发者

前端 Vue 3 VUE 3.0 源码 企业号 7 月 PK 榜

Cnetos7系统---文件压缩与解压命令详解。

百度搜索:蓝易云

云计算 Linux centos 运维 云服务器

DevOps国际峰会 | 采访龙智总经理,分享DevOps见解与行业趋势

龙智—DevSecOps解决方案

DevOps 金融行业 devops国际峰会

详解TCP网络协议栈的工作原理

华为云开发者联盟

后端 开发 华为云 华为云开发者联盟 企业号 7 月 PK 榜

Nautilus Chain 主网上线,Zepoch 持有者将获第三轮 POSE 空投

西柚子

3步带你搞定华为云编译构建CodeArts Build “新手村任务”

华为云开发者联盟

云计算 后端 华为云 华为云开发者联盟 企业号 7 月 PK 榜

8月31日,上海!第十八届中国IDC产业(长三角)年度大典即将召开!

中国IDC圈

数据中心

户外LED显示屏怎样在5G时代下发展?

Dylan

5G 广告 数字化 城市 户外LED显示屏

第二届“鼎新杯”数字化转型应用大赛-全国入围赛结果公示及最佳人气案例投票启动

信通院IOMM数字化转型团队

数字化转型 IOMM 鼎新杯

SAM&Stable-Diffusion集成进化!分割、生成一切!AI绘画新玩法

飞桨PaddlePaddle

人工智能 百度 paddle AI 飞桨

智能运维进入6.0时代,CloudwiseGPT运维大语言模型强势来袭!

云智慧AIOps社区

智能运维 大模型训练 大模型 大模型时代

CRM系统化整合从N-1做减法实践 | 京东物流技术团队

京东科技开发者

CRM CRM系统 企业号 7 月 PK 榜 系统化整合

安全文件传输:如何降低数据丢失的风险

镭速

文件传输 安全文件传输

比AD更好用的“PCB设计文件转生产文件”工具

华秋PCB

软件 工具 AD PCB PCB设计

数字孪生(Digital Twin)快速入门:简介以及应用示例

龙智—DevSecOps解决方案

数字孪生 digital twin

搜狗输入法双击输入框崩溃问题 | 京东云技术团队

京东科技开发者

搜索引擎 搜索 输入法 企业号 7 月 PK 榜

【云计算小知识】云环境是什么意思?有什么优点?

行云管家

云计算 云资源 云管 云环境

服装行业MES系统解决方案|免费使用MES系统

万界星空科技

开源 MES系统 服装行业

从iOS App启动速度看如何为基础性能保驾护航 | 京东物流技术团队

京东科技开发者

ios 开发 企业号 7 月 PK 榜 APP冷启动 启动速度

Ubuntu 18.04系统编译安装Nginx 1.22教程。

百度搜索:蓝易云

nginx 云计算 Linux ubuntu 运维

出海是产业互联网发展的必然趋势之一

用友BIP

产业互联网 中企出海

软件测试 | MySQL存储引擎

测吧(北京)科技有限公司

测试

数智融合促进资产共享,实现企业资产效益最大化

用友BIP

资产云

业财税档融合:大企业管理升级的必然选择

用友BIP

税务云 业财税档融合

【升职加薪秘籍】我在服务监控方面的实践(1)-监控蓝图

蓝胖子的编程梦

elasticsearch 性能优化 Grafana 服务监控 #Prometheus

Stepn跑鞋/Jogger慢跑者NFT系统开发案例

薇電13242772558

NFT

加速 Selenium 测试执行最佳实践

FunTester

宁波企业等保测评找哪家?怎么做?

行云管家

等保 等级保护 等保测评 宁波

全网最强分布式事务详解

程序员小毕

Java 分布式 分布式事务 后端 架构师

三大升级!龙蜥正式推出首款全面拥抱智算的国产操作系统 Anolis OS 23

OpenAnolis小助手

开源 操作系统 龙蜥社区 版本发布 Anolis23

西安航天基地人才创新创业大赛正式启动

华为云PaaS服务小智

西安 大赛 比赛 西安航天 企业人才

1个芯片顶英伟达3个?这个偏爱印度的创始人爆肝8年,终于等来抢英伟达泼天富贵的一天!_AI&大模型_褚杏娟_InfoQ精选文章