写点什么

开天、盘古、全球一张网,探秘华为云的技术底气

  • 2021-09-29
  • 本文字数:5542 字

    阅读完需:约 18 分钟

开天、盘古、全球一张网,探秘华为云的技术底气

从 2006 到 2021 ,整个中国对“云计算”的认知,发生了巨大的转变。


就在 2014 年,云计算问世 8 年后,知乎上关于云计算的提问还是“如何简单通俗地解释‘什么是云计算’”、“什么是云计算”;但到了 2019 年,类似提问已经和“中小企业”、“赋能”等关键词紧密相连。


这样的提问,最直观地体现了云计算在中国的特殊发展路径:它发展曲线陡峭,又能快速逼近技术本质。从业者几乎没用几年,就从单纯的极客思维过渡到了业务思维,将云计算和产业互联网、数字化转型紧密结合在了一起。


而在这样一场“从云端到地面”的加速落地中,华为云尤为特殊 —— 相比于许多云计算企业,华为云在技术层面太低调了。无论是在华为自有的峰会上,还是在对外的开放活动里,华为云的主题词几乎离不开“联创”、“共创”、“产业”、“服务”,其技术专家也很少出现在大型技术会议的讲台上。单纯从技术角度,开发者对华为云的感知并不算强。


因此也很少有人知道,在一项发起于 2018 年的全球云计算专利数量统计里,华为是唯一排进前十的中国企业,位列第八;其开源项目 VolcanoServiceComb 在云原生领域都有着非常广泛的应用。


而华为 2020 年度报告也显示,2020 年华为云增速达 168 %,市场份额增速全球第一,在全球 IaaS 市场中,华为云位列中国第二,全球前五。


这就有点奇怪了,是什么样的技术战略,让华为云“悄咪咪”的就成了“全球五朵云”之一呢?是什么构筑了华为云如此硬核的技术底气?

赋能千行百业的关键要素:速度与形态


我们首先来看一张图。这张图由典型领域与客户、业务价值与特性、场景化解决方案、开天 aPaaS 平台、云原生技术赋能、华为云技术能力基座等几个关键部分组成,形象地表现了华为云的发展战略和技术支撑形态。



而从这张图中,我们也能发现,华为云之所以如此有底气,是因其始终以解决方案为核心导向,目标是“赋能千行百业”。客户及行业生态,在华为云的发展战略中处于非常重要的位置。


就在今年 7 月 22 日,2021 中国国际数字和软件服务交易会上,华为 ICT 产品组合管理与解决方案副总裁何霁就发表了“AI 赋能千行百业,助力数字经济创新发展”的主题演讲。而 AI 使能正是华为云一直以来核心的三大使能之一,另外两项分别是“数据使能”、“应用使能”。


如果时间轴继续向前滚动,在今年 3 月 17 日,InfoQ 发表了一篇有关华为云的报道,描述了华为云是如何与武汉希望组(一家生物科技公司)合作完成对肺鱼的基因测序的。肺鱼是活化石,拥有迄今为止报道的最大的动物基因组(约 40Gb),相关研究成果直接助推了一篇《Nature》论文、两篇《Cell》论文的发表。



如果你以调查者的身份自居,一丝不苟的翻阅相关资料,将会发现类似发言、案例的出现频率之高,简直令人咋舌,远超业内任何一家云计算公司。华为公司高级副总裁、中国区总裁鲁勇的一句话,可以很好地概括华为云发展的整体战略:


“千行百业的数字化大战场,才是云服务决战的主战场。”


这种战略直接导致华为云尤其注重“速度”和“产品形态”两大关键要素,前者决定云企业能否适应产业需求,后者决定了云技术能否切实帮助产业进化。


速度自不必说,华为云 2017 年才正式对外开放服务,到今天线上服务已经超过 220 个,解决方案超过 210 个,仅在今年的开发者大会上,就一口气发布了六类重型产品和服务:CCE Turbo 云容器集群、CloudIDE 智能编程助手、GaussDB(for openGauss) 数据库、可信智能计算服务 TICS、华为云盘古系列大模型 (包含全球最大规模的中文 NLP 大模型及 CV 大模型等)、多样性计算基础软件。


而在 9 月 23 日的 HC 全联接大会上,华为云又发布了新的成果,在“全球一张网”概念下,数据中心全球可用区增加了 16 个;SparkRTC 发布,可靠性是业内标准的“四个 9 ”——99.99%;FunctionGraph 升级,支持 Serverless 有状态函数;华为云 Stack 8.1 版本发布;AI 领域更新了盘古药物分子大模型和天筹 AI 求解器;此外,GaussDB、区块链服务都迎来了升级……


这样的产品迭代速度不可谓不惊人。


而“产品形态”也是一样,华为云的 IaaS、PaaS、SaaS 层服务 2020 年就已经接近完备,在今年的 HC 大会上,又公布了开天 aPaaS 服务,主要开放支付、搜索、浏览、地图、广告五类数字业务根引擎。



aPaaS(application Platform as a Service),意思是应用程序平台即服务,Gartner 对其所下的定义是:“这是基于 PaaS(平台即服务)的一种解决方案,支持应用程序在云端的开发、部署和运行,提供软件开发中的基础工具给用户,包括数据对象、权限管理、用户界面等。”


aPaaS 是 PaaS 的一种形式,和近两年大火的低代码有着强关联,又是云计算深入千行百业的必经之路。


数字化转型进入一定阶段,PaaS 层面的服务开始变得越来越重要,但即便是在 IaaS 层高度隔离,平台工具极大完备的今天,传统的 PaaS 层服务还是不能完全适应企业的 IT 需求。


如果一个企业要求一名销售总监,在 3 小时内开发一套定制化的 CRM 系统,在以往是完全不可能实现的,而在 aPaaS 平台上只是基本操作。如果某个行业没有专有特征,也不需要专门的代码审计,aPaaS 完全可以适应需求。


而且,并不是只有小企业才需要 aPaaS,大企业也没有必要为各个部门的各个系统都配备研发团队和运维人员,把开发工作交给 aPaaS,维护工作交给云,是比较理想的经营模式。几年间,关于低代码的争论颇多,也颇为激烈,都基本离不开技术价值、技术架构、技术人才梯队等几个关键词。


但实际上,无论你赞同与否,相关应用都在以惊人的速度下沉到一线市场。所以,aPaaS 几乎象征着云计算厂商,开始真正开始脱离“唯技术论”思维,在产品开发层面,形成了真正的业务思维。


华为云这次发布的 aPaaS 平台覆盖领域包括互联网、政府、政务、金融、制造等,共计 50 个场景,几乎全部是 aPaaS 的强应用场景,API 20,000 个,数量相当可观。我们可以从华为云后续放出的对外数据,来进一步观察它在企业服务层面的布局和思路。

核心驱动力:云原生 2.0 与三大使能


无论是速度还是形态,这种产品层面的策略,反映的是一家云计算公司对云原生的理解。而对于华为云来说,这种理解可以简单概括为“云原生 2.0”,由华为云在 2020 年末提出。


云原生 2.0 是相对于“云原生 1.0” 而言的,我们耳熟能详的 CNCF 云原生体系,在这个语境里,基本都属于云原生 1.0,它的代表技术包括容器、服务网格、微服务、不可变基础设施和声明式 API。


CNCF 云原生技术图谱


但从本质上来谈,云原生 1.0 仍然是以资源为核心的,它存在三个断层:


  1. 多云之间的断层:当下的容器编排对多云多集群的支持并不友好,管理员需要对不同集群进行繁琐的配置;

  2. 软硬件间的断层:容器服务的部署多基于虚拟机,有较大的性能损耗和功能冗余;

  3. 资源和场景间的断层:云原生面向资源和云服务本身,不面向场景,对于在个别场景有需求的企业而言,上云的效果差强人意。


一旦明确了问题所在,那么云原生 2.0 的特点也就呼之欲出了:


它要能解除厂商锁定,跨云实现容灾和弹性伸缩,跨云实现多个 Kubernetes 集群间的自由迁移;它还要向下支持异构硬件,向上屏蔽硬件差异,用裸金属服务器承载容器服务,提升性能和资源利用效率。


这是最基本的,也最容易理解的两个特性。硬件层面,华为云裸金属服务器的推出非常之早,2018 年以前就有一定的市场应用。软件层面,华为云在今年 4 月宣布多云多 Kubernetes 集群应用编排项目 Karmada 开源,实现了关于云原生 2.0 的构想,实现了跨云的容器服务编排调度。


Karmada 兼容 Kubernetes 原生 API,能以模块化的方式提供应用多集群部署、高可用调度、故障迁移、多集群服务发现和流量治理、多云集群生命周期管理等能力集,面向多种典型的用户场景预置策略集,并不是只做多集群应用分发。


此前,业界对这类服务持普遍的悲观态度:一个云厂商,要发布一个解除厂商绑定的产品,敢信么?


Karmada 的开源在很大程度上打消了这种疑虑,华为云 CTO 张宇昕还表示,Karmada 未来会考虑捐赠给 CNCF,而且 Karmada 本来也是以 CNCF 的开放治理理念为目标来开发的。那还疑虑什么呢?先用起来再说吧。


Karmada 架构设计


你可能会想,不对啊,前面只说了两点,资源和场景之间的断层怎么解决呢?


资源和场景间的断层问题比较复杂,可以说,PaaS 层以上的大部分服务都在尝试解决场景问题,包括前文提到的华为云 aPaaS 平台。而要把资源和场景更好地连接起来,对于华为云而言,主要依赖“三个使能”:AI 使能、数据使能、应用使能。

AI 使能


AI 使能的重要程度,从本次 HC 大会的产品发布来看,就可见一斑 —— 其一是盘古药物分子大模型,其二是天筹 AI 求解器。


盘古药物分子大模型是盘古大模型的一个组成部分,其他大模型还有华为云盘古 NLP 中文大模型;华为云盘古计算视觉大模型;华为云盘古药物分子大模型;华为云盘古科学计算大模型;遥感专用框架 LuojiaNet;鹏城盘古 NLP 中文大模型;鹏城生物制药大模型等。



在很长一段时间里,AI 的模型训练都是依赖于小场景下的数据集,很难大规模复制,也无法实现较为通用的模型训练。盘古大模型是把众多小模型做泛化复制,形成一个大型的预训练模型,可以把训练效率提升 10 - 100 倍,从根本上解决 AI 的产业化问题。


AI 求解器则是将运筹学和 AI 相结合的商用求解器,啥意思呢?当我们利用 AI 解决智慧城市场景下的交通规划问题、电商场景下的物流运输问题,遇到的阻碍可能并非来自代码,而是来自数学,企业要将万级到千万级的约束条件和变量,转换成为对万级到千万级变量方程组的求解。如果要利用 AI 真正实现数字化转型,数学规划求解将是一个主要障碍。



天筹 AI 求解器就是在这一领域取得了突破性的进展,速度最高可提升 100 倍。美国亚利桑那州立大学有一位 Hans Mittelmann 教授,长年在其个人网站上做数学规划求解器的评测榜单,因为评测到位,被求解器业界奉为其软件性能排名的事实标准。天筹 AI 求解器目前是 Hans Mittelmann 单纯形求解器榜单的第一名。

数据使能


数据使能最容易理解,市面上有太多的云存储、数据库、数据湖等服务,核心聚焦点仍然是性能,产品表现和企业的研发能力密切相关,我们这里也不再过多赘述。


在 HC 大会上,GaussDB 公布的升级分为三个方面:


  1. 复杂查询场景优化,90% 的逻辑计算在分布式存储层完成,TPC-H 测试性能最高可达行业同类产品的 34 倍;

  2. 秒级伸缩,应用 0 感知;

  3. 云原生多主架构,升级到 16 个主节点的写入。


三个指标在业内都是较为引人瞩目的。

应用使能


令人困惑的反倒是应用使能。应用使能最常出现的场景是物联网,用于描述如何快速上线一个物联网应用的使能问题,比较抽象。而在华为云,有一套专门的解决方案对应着“应用使能”,叫做 ROMA。


抛开比较冗长的产品介绍不谈,ROMA 的功能可以概括为:数字化资产管理,提供应用的开发、运维、托管和集成服务。ROMA 主要分为三个模块,分别是:


  1. ROMA Factory:应用工厂,提供 DevOps 服务;

  2. ROMA Connect:应用与数据连接,实现跨云、跨地域、跨业务、跨设备集成;

  3. ROMA Exchange:应用资产中心,实现资产的盘点、管控,共享、变现。


根据这些特点,我们很容易推测出,ROMA 最适合解决政府及公共事务场景下的技术问题,比如新老应用并存、数据孤岛、应用开发成本过高等。


ROMA 解决方案架构图


像 ROMA 这样的服务,在华为云内部其实比比皆是,它们纷纷归类到应用使能、AI 使能、数据使能三个范畴中,向上对齐的是具体的需求场景,向下依托的是具体的云原生服务,比如云容器引擎、应用编排服务、云存储、云数据库、应用中间件、AI 基础平台……


这些都是对资源和场景间的断层问题的解答,也是云原生 2.0 理念的体现。当然,云原生 2.0 涉及的问题还有很多,比如应用敏捷、业务智能、安全可信,但万变不离其宗,如何更好地面向场景,以应用为中心最大化输出云资源,才是个中关键。


全栈底层技术能力基座


无论 SaaS、PaaS 层如何深入用户场景,公有云的技术底气还是来自于基础层。对于华为云而言,就是擎天架构和数据中心、加速网络。


为了做好擎天架构,华为云用了八年。擎天架构共分为两大模块:


  1. 软硬协同系统:连接数据中心、硬件和上层软件,从极简数据中心、多样性算力、擎天系列卡、极速引擎、极简虚拟化五个维度进行软硬协同创新;

  2. 智慧云脑:面向云、AI、5G 时代打造的分布式云操作系统,依托全域调度能力实现云边端的协同与治理。



华为云 Stack、包含 x86、鲲鹏、昇腾 AI 在内的多样性算力选择、裸金属容器、边云协同能力,都是基于擎天架构构建的,命名为“擎天”可以说是毫不夸张。


比擎天更底层的就是数据中心和云网络了,它直接决定一个公有云跨地域的、物理层面的服务边界在哪里。


华为云的理念是“全球一张网”,意思是通过一个账号、一个入口、一份账单,一点接入,通达全球。向上用统一架构整合伙伴云、公有云、混合云、边缘云,向下在中国、拉美、南非、欧洲、俄罗斯、亚太、中东加强数据中心和网络建设。


乍一听好像没什么,但我们可以通过一个具体的案例,来感知一下这种云服务能力。华为云在乌兰察布 Region 构建了一个“全球最大渲染基地”,可以用数量高达 30 万核的云渲染能力,加速一部 90 分钟 3D 电影的渲染工作 —— 原来可能需要六个月,现在只需要两周。


没有什么技术服务能比这更实际了,实现最大程度的降本提效,永远是数字化转型的核心底层需求之一。

结语


在刚刚结束的 2021 华为全联接大会上,华为高级副总裁、华为云 CEO、消费者云服务总裁张平安发表了“深耕数字化,一切皆服务”的主题演讲:“基础设施即服务,让业务全球可达,技术即服务,让创新触手可及,经验即服务,让优秀得以复制。”


在笔者看来,这段总结非常到位,既是体现了华为云的实力,也饱含着对未来服务千行百业智能化的愿景。



这与华为云所有的技术、产品进化方向都是一脉相承的。或许,以此为基础的科技致善,才是让一家企业能长期保持高速发展的真正原因吧。


2021-09-29 17:255273

评论 2 条评论

发布
用户头像
啊啊啊,只看懂一半,不懂云原生🤐,支持华为云
2021-10-07 01:07
回复
😀
2021-10-09 20:03
回复
没有更多了
发现更多内容

策略模式解析

Seven七哥

设计模式 策略模式

[架构师训练营] 2 依赖倒置

悬浮

架构师训练营 - 第 2 周命题作业

红了哟

程序员的晚餐 | 6 月 20 日 随便牛肉和翡翠白玉

清远

美食

LeetCode | 4. Palindrome Number 回文数

Puran

Python C# 算法 LeetCode

优化工程师逻辑视角下的微信“拍一拍”功能

Earth_Polarbear

人工智能 微信 系统工程 优化逻辑

游戏夜读 | RPG的美式和日式

game1night

golang-pprof实战笔记

卓丁

pprof 性能分析 Go 语言

实现一个redis命令--nonzerodecr

老胡爱分享

redis 源码分析 源码阅读

效率思维模式与Zombie Scrum

易成研发中心

敏捷开发

架构师第二周学习总结

陈靓-哲露

从拼多多突破阿里和京东两大巨头绞杀,市值破千亿美金来看职业价值链

非著名程序员

程序员 程序人生 职业规划 职业成长

Git 基础知识学习

LeoBing

如何做好职场印象管理?

石云升

职场 印象管理 职场形象

一款跨平台免费的开源 SQL 编辑器和数据库管理器!

JackTian

数据库 sql GitHub 开源 实用工具

架构师训练营第三周学习总结

张明森

啥是CPU缓存?又如何提高缓存命中率呢?

八两

Java操作Excel竟如此简单

生命在于折腾

Java EasyExcel

SpringIOC 是依赖倒置吗?

yupi

Kafka面试题:基础27问,必须都会的呀!

Java小咖秀

大数据 kafka 分布式 队列 延时消息

ArrayList哪种循环效率更好你真的清楚吗

root

Java 后端 ArrayList 循环效率 方式

在项目中随手把haseMap改成了currenHaseMap差点被公司给开除了

root

Java 后端 BigDecimal金额 Arrays.asList

由一次管理后台定时推送功能引发的对 RabbitMQ 延迟队列的思考 (二)

LSJ

Java RabbitMQ 延迟队列 优先级队列

【Golang runtime学习笔记-启动过程分析】

卓丁

初始化 runtime 汇编 Go 语言

架构师训练营 - 第2周学习总结

红了哟

软件设计原则

yupi

大话设计模式 | 3. SOLID原则

Puran

设计模式

架构师训练营第二周作业

陈靓-哲露

[安利] 可能会让你爱上书写的工具组合!

猴哥一一 cium

Typora markdown markdown编辑器 玩转写作平台

区块链系列教程之:比特币的钱包与交易

程序那些事

比特币 区块链 智能合约 钱包 交易

终于有人把 java代理 讲清楚了,万字详解!

root

Java jdk 后端 动态代理 cglib

开天、盘古、全球一张网,探秘华为云的技术底气_大数据_王一鹏_InfoQ精选文章