写点什么

探访华为云全球最大云数据中心,背后藏着这些“黑科技”

  • 2021-09-10
  • 本文字数:2320 字

    阅读完需:约 8 分钟

探访华为云全球最大云数据中心,背后藏着这些“黑科技”

新基建背景下,数据中心作为支撑新基建发展的重要 IT 基础设施,愈发受到重视。除三大运营商外,BAT 等互联网巨头近年也开始大力投入数据中心的建设和布局。近日,InfoQ 记者来到华为云贵安数据中心实地探访,进一步了解 AI 和大数据等技术在支撑超大型数据中心日常运转所发挥的作用。


坐落在贵安新区数谷大道 1 号的“童话小镇”,也是华为云全球最大云数据中心

 

2016 年,华为与贵州省政府签署战略合作协议,数据中心正式投建。目前华为云贵安数据中心一期已经投入使用,共建设有 9 栋机房,预计未来三到五年还会有更多机房建成。

 

据华为云营销部长董理斌介绍,贵安数据中心规划为华为全球最大的云数据中心,全部建成后可容纳 100 万台服务器。它也是华为云业务的重要承载节点,主要承载华为云、消费者云和华为内部流程 IT 等业务。“如果以贵州为中心,用一千公里画一个半径,贵安华为云数据中心的服务范围能够辐射到重庆、广西、广东、云南、四川等周边省份和地区。”

 

除了建设数据中心以外,华为云贵安数据中心还将承担华为全球 IT 维护工程师基地、员工培训实习基地的职能。预计将有约 600-800 位 IT 维护工程师对数据中心提供支持与服务,每年还将有大量人员到园区进行全景化实战培训、实习等。

 

当前,华为云在中国布局了五大数据中心,除了贵安和乌兰察布外,还有京津冀、长三角、粤港澳片区三大核心数据中心。在国内数据中心规划中,华为云主要基于时延来进行数据中心的冷、温、热布局,其中冷服务主要建在低成本地方,温服务贴近沿海的低成本地方,热服务则布局在贴近客户需求的地方。在海外,华为也在欧洲、中东、非洲、亚太、拉美等区域建立了本地数据中心。

 

在董理斌看来,当前数据中心及相关联产业目前仍处在飞速发展阶段。仅在贵州,华为云就已为超过 800 家贵州企业数字化转型提供服务,全省 62 家省直部门 1438 个数据资源都已上云。而据中国信息通信研究院数据,截至 2020 年底,我国在用数据中心机架总规模超过 400 万架,近 5 年年均增速超过 30%。

 

但数据中心产业快速发展的同时,也带来了能耗大幅增长的问题。据《中国数据中心能耗现状白皮书》,早在 2015 年,全国大数据中心的耗电量已达 1000 亿 kWh,相当于三峡电站全年的发电量;2018 年这个数值迅速爬升至 1609 亿 kWh,超过上海全年的社会用电量。

能耗问题如何破解?

 

今年 7 月 14 日,工业和信息化部印发《新型数据中心发展三年行动计划(2021-2023 年)》(以下简称“行动计划”)明确指出:到 2021 年底,全国数据中心平均利用率力争提升到 55%以上,总算力超过 120EFLOPS,新建大型及以上数据中心 PUE 降低到 1.35 以下;到 2023 年底,全国数据中心机架规模年均增速保持在 20%左右,平均利用率力争提升到 60%以上,新建大型及以上数据中心 PUE 降低到 1.3 以下,严寒和寒冷地区力争降低到 1.25 以下。

 

PUE,即 Power Usage Effectiveness,这是一项用于评价数据中心能源效率的指标,它的值取自数据中心消耗的所有能源(总能耗)与 IT 设备消耗的能源的比值。 其中数据中心总能耗包括 IT 设备能耗和制冷、配电等系统的能耗,因此 PUE 值通常大于 1,PUE 值越接近 1 表明非 IT 设备耗能越少,即能效水平越好。

 

华为云贵安数据中心的能效比 PUE 做到了 1.12,处于业界领先水平。董理斌在采访中向 InfoQ 表示,为了把 PUE 做到尽可能低,华为云采取了多重手段。

 

首先,数据中心选址贵安主要也是基于气候的考虑,贵安年均温度约 15℃,空气质量良好,没有化学、颗粒物污染,使采用直通风自然冷却成为可能。为了充分利用自然冷源,放置服务器的机房建筑相比其他普通建筑也做了一些特殊设计,包括更高的层高和用百叶窗替代普通窗户,而百叶窗背后其实就是一个个的机柜。冷风经大楼百叶窗送进机房,热风经热通道从楼顶排出。



 其次,数据中心设施区和办公区域采用中温冷冻水系统,散发的热量一部分通过瀑布和湖面实现自然冷却,另一个部分通过热回收技术用于游泳池和办公区冬季制热,实现余热回收,减少热损耗。此外还引入了服务器液冷技术,能够把热量直接从芯片上带走,减少制冷无关损耗,提升设备密度降低能效比。

 

AI 技术也在其中发挥了重要作用,基于 AI 技术能够实现随业务功率的变化实时调整制冷功率、削峰平谷,使各服务器负荷均衡,进一步提升资源使用效率比。同时在供电环节用功率半导体替换铜器件,结合智能算法,又能进一步降低供电损耗。

 

华为云称,在满负荷运行的情况下,预计每年可节省电力 10.1 亿度,减少碳排放 81 万吨,相当于年植树 3567 万棵。

智能运维:人均运维设备数量提升 10 倍

 

在数据中心生命周期中,数据中心运维管理是数据中心生命周期中最后一个、也是历时最长的一个阶段。如何用尽可能少的运维人员高效完成数据中心的运维工作,同样是一个非常大的挑战。

 

随着数据中心规模不断扩大,当故障发生时,想要在几十万甚至上百万台服务器中,通过人工来确定故障具体发生在哪个机房、哪个机柜、哪台机器,并找到出问题的具体原因,已经非常困难。为了解决这个问题,华为云结合智能传感和 IoT 等技术构建了数字孪生平台,可以实时显示数据中心环境和设备的状态,把供电和制冷全链路状态以及各模块每台服务器工作状态、工作温度全部可视化。


运行中的河图机器人


机房环境信息实时展示

 

结合华为河图虚拟增强现实技术,运维工程师可以非常方便地实时看到机柜温度、湿度、通风等机房环境信息,人均运维设备数量提升了 10 倍,故障定界定位时间也从 30 分钟大幅降低到 1 分钟。

 

据了解,河图是华为在 2019 年 8 月推出的底层技术平台,定位数据基础设施,其核心能力包括全场景空间计算能力、AR 步行导航、场景编辑、渲染等核心技术。

 

此外,借助大数据分析和 AI 技术,还可以提前分析可能存在的隐患,对基础设施故障进行预测并发布智能风险提醒,从而把运维工作从“被动”变为“主动”,防范于未然。

公众号推荐:

AGI 概念引发热议。那么 AGI 究竟是什么?技术架构来看又包括哪些?AI Agent 如何助力人工智能走向 AGI 时代?现阶段营销、金融、教育、零售、企服等行业场景下,AGI应用程度如何?有哪些典型应用案例了吗?以上问题的回答尽在《中国AGI市场发展研究报告 2024》,欢迎大家扫码关注「AI前线」公众号,回复「AGI」领取。

2021-09-10 09:063878
用户头像
蔡芳芳 InfoQ主编

发布了 788 篇内容, 共 509.6 次阅读, 收获喜欢 2759 次。

关注

评论

发布
暂无评论
发现更多内容

PriorityQueue 源码解析(三)

知识浅谈

Priority Queue 10月月更

Kafka消费组/者协调器的介绍

石臻臻的杂货铺

Kafk 10月月更

5个技巧让CIO最大化提升IT项目投资回报率

雨果

CIO ROI

如何将 SAP Business Application Studio 里开发的 Java 应用部署到 SAP BTP 上

Jerry Wang

云原生 Cloud 云平台 SAP 10月月更

【荣耀云调试FAQ】一个帐号可以同时使用多部手机吗?

荣耀开发者服务平台

开发者 手机 安卓 荣耀 honor

企业云安全的6个最佳实践

HummerCloud

10月月更

浙江特殊教育职业学院用上了福昕无障碍技术

科技热闻

js函数柯里化-面试手写版

helloworld1024fd

JavaScript

react源码分析:深度理解React.Context

flyzz177

React

【一Go到底】第十七天---函数的递归调用

指剑

Go golang 10月月更

如何掌握“看见数据”的魔力?

博文视点Broadview

STM32 HAL库串口同时收发,接收卡死?

矜辰所致

串口 STM32L051 10月月更

推荐|海泰信创浏览器安全解决方案 全面适配安全可靠

电子信息发烧客

JS继承有哪些,你能否手写其中一两种呢?

helloworld1024fd

JavaScript

哪些数据类岗位不容易失业?

雨果

开发数据 数据科学 数据工程师

从源码角度看React-Hydrate原理

flyzz177

React

前端必会手写题总结

helloworld1024fd

JavaScript

redis实现分布式锁(一)

zarmnosaj

10月月更

欧美开源法案频出,你准备好了吗?

安势信息

出海 #开源 SBOM 软件供应链安全 开源合规

年度大促将至,企业如何进行性能压测

阿里巴巴云原生

阿里云 云原生 性能压测 PTS

Java三大特性(二)—继承

共饮一杯无

Java 继承 10月月更

推荐|海泰政务移动办公系统密码应用解决方案 打造移动办公安全

电子信息发烧客

CentOS下搭建Gitea-自己的git服务器

麦洛

git Gitea

Java基础(八)| 常用API与StringBuilder详解

timerring

Java API 10月月更

【LeetCode】可能的二分法Java题解

Albert

算法 LeetCode 10月月更

安势清源SCA助力超大规模高科技企业加速开源风险治理

安势信息

开源 腾讯 SCA SBOM 软件供应链安全

Kafka消费者客户端心跳请求

石臻臻的杂货铺

Kafk 10月月更

redis实现分布式锁(二)

zarmnosaj

10月月更

长安链源码分析之网络模块 net-liquid(3)

保10万涨薪、保Offer、保大厂,1V1私教服务上线啦!

霍格沃兹测试开发学社

利器| Cypress 强大全新的 Web UI 测试框架应用尝鲜

霍格沃兹测试开发学社

探访华为云全球最大云数据中心,背后藏着这些“黑科技”_架构_蔡芳芳_InfoQ精选文章