写点什么

广东首个国产 TPU 智算中心怎么建起来的?

  • 2024-09-27
    北京
  • 本文字数:1881 字

    阅读完需:约 6 分钟

大小:957.07K时长:05:26
广东首个国产TPU智算中心怎么建起来的?

9 月 9 日,广东地区首个采用国产 TPU 技术的智算中心成立。该项目一期由 32 个算力节点通过高效互联构建而成,后期将扩容至千卡规模,形成训推一体化的枢纽,成为中国联通在深圳的核心智算高地的重要组成部分。


深圳作为全国科技创新的前沿阵地,一直走在人工智能产业发展的前列。据深圳联通副总经理赵桂标介绍,此次中昊芯英与深圳联通联合进行的高性能 AI 智算中心项目合作,不仅是对国家智算能力布局要求的积极响应,也为深圳乃至全国的人工智能产业发展注入强劲动力。智算中心的主要客户一是政企客户、二是工业制造方面的客户、三是金融客户、四是医疗客户。


那么,这样一个重要的智算中心是怎么建成的?其中有两个重要组成部分:TPU 芯片和算力调度。


TPU 架构,专为 AI 深度学习设计。相较于 CPU 的 if else 类的逻辑开销,GPU 用于光线追踪的计算开销,TPU 则专注于针对深度学习的主要计算方式(如非线形计算)进行硬件优化设计,这些特定的计算方式和硬件算子是 CPU 和 GPU 所不具备的,这就使得 TPU 在用于 AI 深度学习时更有算力性能优势。而这一性能优势在集群层面更甚,多 TPU 芯片系统的构建方式,也是针对深度学习在模型训练和推理过程中所需要的数据流特征,而构建的专用的网络形态和网络基础架构。这样的网络形态没有向前兼容的负担,所以它比英伟达的 NVlink 更适合跑大模型的应用。无论是单芯片还是系统级,TPU 芯片都有特定的技术路线优势来实现 AI 场景中进行算法运行时的算力性价比的巨大提升。


本次智算中心的 AI 计算底座选择了搭载中昊芯英自主研发的高性能 TPU 架构 AI 芯片“刹那®”的人工智能服务器及大规模 AI 计算集群系统“泰则®”。中昊芯英创始人兼 CEO 杨龚轶凡表示,“我们想把 TPU 架构做成 AI 界的 X86。”


同样是由前谷歌的 TPU 团队核心成员创办的 Groq,最近推出了新的 AI 加速芯片 LPU。杨龚轶凡解释称,从 Groq 的论文中可以看出 LPU 就是类 TPU 架构,本质上和 TPU 没有太大区别。杨龚轶凡曾在 Google 负责 TPU 芯片研发工作,也曾在 Oracle 参与、主导过 12 款高性能服务器级别 CPU 芯片的设计与研发,中昊芯英核心研发团队成员都是一批来自于谷歌、微软、三星、甲骨文的 AI 软硬件设计专家,具备从 28nm 到 7nm 各代先进制程工艺下大芯片设计与优化完整方法论。


杨龚轶凡说:“芯片的设计研发的确是集结了很多人心血的系统化工程,也是集结了人类社会最顶尖生产工艺的过程。在这个过程中,耗费的人力和脑力是很多的,经历的时间周期也很长。这也是为什么中昊芯英第一代芯片产品“刹那®”经历了 4 年半的设计和生产周期才能完成,它其实没有一个真实世界的对应参照物做验证,大部分的东西都是在想象和想象的过程中完成。但是当有了第一代芯片,之后的迭代就会顺畅些。”


关于智能算力落地应用,杨龚轶凡表示,芯片与系统集成的挑战尤为显著。随着芯片数量的激增,通信效率成为一大难题。协调难度骤增、背景噪音干扰严重、信息传递效率急剧下降……如何设计高效的信息交换协议与物理链路,从而实现千到万乃至十万级别核心间的顺畅交流,成为亟待解决的技术瓶颈。


而 TPU 以独特的片间互联能力展现出强大的可拓展性优势。它能够轻松实现千片以上芯片片间互连,形成数据网络,并支持节点间的灵活交互与通信。这一特性使得 TPU 在构建大规模集群时更为简便,谷歌第 6 代 TPU 已能内部连接 16000 个芯片,无需依赖外部以太网,为万卡至百万卡级别的集群部署奠定了坚实基础。


此外,智算中心另外一个特点就是,智算中的单机密度和功耗密度越来越高,原来机架的功耗是 4 千瓦、6 千瓦、8 千瓦、20 千瓦,接下来可能 40 千瓦,功耗会越来越高。


对此赵桂标表示,对于能耗的控制主要依赖于两个方面:首先,在规划和建设层面,要大胆拥抱新技术,采用高效能的设备,比如液冷、磁悬浮冷机和模块化的电源等。通过采用高效能的设备利用自然冷源来降低能耗;其次,在运营管理层面上,不断积累精细化管控能耗的经验,持续优化、提升降低 PUE 来达到降低能耗目的。智算中心最后就是电力的竞争,不断降低能耗是整个行业要面对和不断攻克的问题。


中国联通以国家智算能力布局为导向,为推动全国范围内的人工智能产业发展,将深圳作为这一布局中的核心智算高地,同时,该项目将搭载联通云自研“星罗”算力管理平台,实现多元异构算力的适配和服务编排,形成“通算 + 智算 + 超算”的融合调度能力,可面向客户提供一体化的算力运营服务,也可用于企业私有化部署的智能算力网络搭建及运营管理。根据介绍,智算中心的优势在于算力的共享,避免单个企业因业务需求波动导致的算力闲置或不足问题,提高算力整体利用率,降低运营成本。


2024-09-27 18:1018312

评论 2 条评论

发布
用户头像
电力成瓶颈了

智算中心另外一个特点就是,智算中的单机密度和功耗密度越来越高,原来机架的功耗是 4 千瓦、6 千瓦、8 千瓦、20 千瓦,接下来可能 40 千瓦,功耗会越来越高。

2024-09-28 23:27 · 浙江
回复
用户头像
TPU?听AI说是google给TensorFlow发明的?

TPU 芯片和算力调度。 TPU 架构,专为 AI 深度学习设计。相较于 CPU 的 if else 类的逻辑开销,GPU 用于光线追踪的计算开销,TPU 则专注于针对深度学习的主要计算方式(如非线形计算)进行硬

...

态没有向前兼容的负担,所以它比英伟达的 NVlink 更适合跑大模型的应用。无论是单芯片还是系统级,TPU 芯片都有特定的技术路线优势来实现 AI 场景中进行算法运行时的算力性价比的巨大提升。

2024-09-28 23:24 · 浙江
回复
没有更多了
发现更多内容

腾讯质量效能提升最佳实践:智能自动化测试探索和建设

WeTest

一文搞定Matplotlib各个示例

华为云开发者联盟

Python 深度学习 Numpy matplotlib 绘图库

Apache Flink 在京东的实践与优化

Apache Flink

大数据 flink

大厂炸锅了!这份全程无尿点的Java彩版面试开挂攻略在GitHub火了

Java~~~

Java MySQL 架构 面试 JVM

使用 Flink Hudi 构建流式数据湖

Apache Flink

大数据 flink

【VueRouter 源码学习】第七篇 - 路由变化触发视图更新

Brave

源码 vue-router 9月日更

阿里资深工程师写出这份Java异步编程指南,竟获GitHub百万点赞

Java~~~

Java 架构 面试 计算机 TCP协议

同程内网流传的分布式凤凰缓存系统手册,竟遭GitHub强行开源下载

Java~~~

Java 架构 面试 分布式 微服务

伴鱼:借助 Flink 完成机器学习特征系统的升级

Apache Flink

大数据 flink

阿里最新21版Java面试系列手册已出炉,竟堪称GitHub面试杀手锏

Java~~~

Java 架构 面试 JVM 面经

搞懂 ArrayBuffer、TypedArray、DataView 的对比和使用

每天进步亿点点

9月日更

CV和NLP融合应用,百度联合国内外机构成功举办ICDAR 2021文档图像与语言研讨会

科技热闻

GitHub上火了的MySQL性能调优手册,全篇无废话不愧是清华神人

Java~~~

Java MySQL 数据库 架构 面试

私有化部署竟是企业对低代码选型的重要要素

低代码小观

企业 开发工具 云服务器 低代码平台 私有化部署

Grafana Labs 携手阿里云,将提供国内首款 Grafana 托管服务

阿里巴巴云原生

云计算 阿里云 云原生 可视化 Grafana

GitHub上这份阿里的Java高并发核心手册,即使再过20年依然“NB”

Java~~~

Java redis 架构 面试 高并发

Alibaba内网“疯狂”传阅的P8开源出的SpringBoot入门到进阶小册

Java~~~

Java 架构 面试 微服务 Spring Boot

微信后台基于时间序的海量数据冷热分级架构设计实践

OpenIM

Flink 1.14 新特性预览

Apache Flink

大数据 flink

数据结构是存储的基石

卢卡多多

数据结构 9月日更

终于有人把操作系统,CPU,基础知识,网络一次讲清楚了,绝绝子

Java~~~

Java 架构 面试 操作系统 TCP/IP

逮虾户!清华架构师吐血整理出这份多线程并发指南,带你弯道超车

Java~~~

Java MySQL 架构 面试 JVM

重放浏览器请求多链路性能测试实践

FunTester

浏览器 性能测试 接口测试 全链路压测 FunTester

Flink 在顺丰的应用实践

Apache Flink

大数据 flink

百度混部实践系列 | 如何提高 K8S 集群资源利用率?

百度开发者中心

最佳实践 方法论 k8s

白嫖!一口总结了金九银十(P5-P7级)1000多道Java面试题,20+大厂必考点及Java面试框架知识点!

Java 程序员 架构 面试 计算机

铁山靠!阿里P9架构师写的这份JDK源码笔记,竟直接带火了GitHub

Java~~~

Java 源码 架构 jdk 面试

阿里内网疯狂传阅的“M8级”分布式架构笔记,GitHub刚上线就霸榜

Java~~~

Java 架构 面试 分布式 微服务

如何使用OkHttp实现websocket

Changing Lin

9月日更

初识FL Studio中的FLEX插件

懒得勤快

牛逼!从阿里大牛手里买到了1个G牛逼的Java面试题库,史上最强

Java~~~

Java 架构 面试 JVM 架构师

广东首个国产TPU智算中心怎么建起来的?_芯片&算力_褚杏娟_InfoQ精选文章