写点什么

云原生 2.0 加速:分布式云探寻全面云化的通路

  • 2021-06-03
  • 本文字数:3579 字

    阅读完需:约 12 分钟

云原生2.0加速:分布式云探寻全面云化的通路

企业数字化转型成为势不可挡的浪潮,尤其后疫情时代,各行各业都在积极数字化转型,谋求新的市场环境下的生存空间。据 Gartner 预测,2021 年中国 IT 支出将达到 3.09 万亿,相比 2020 年增长 7.7%。市场需求的不断升级,促使云基础设施服务市场快速响应。

 

经历以“设备”为中心的服务器阶段,以“资源”为中心的云化阶段,企业数字化转型进程如今来到以“应用”为中心的云原生化阶段。降低人力依赖度,提高资源运维效率,降低部署繁杂度,提高应用便捷度,以及更加智能和安全可信,成为“云原生 2.0”区别于此前的主要优势。

 

在 4 月 8 日的华为云 TechWave 全球技术峰会上,华为云对去年提出的“云原生 2.0”进行进一步解读:全面云化和全栈智能是实现企业数字化治理的基石。换句话说,迁移平滑、运维稳定、开发便捷则是企业数字化转型的底色,分布式云 x 云原生在当下普遍被认为是企业实现数字化治理的有效通路。

 

5 月 31 日,华为云线上举办 TechWave 云基础设施专题日,基于云基础设施新范式进一步解读分布式云、云原生基础设施产品及背后黑科技,首次亮相分布式云操作系统瑶光。

“一朵云”的关键特点

 

华为云分布式云具备四个关键特点:一张分布式网络满足便捷安全接入,一致运行环境构建无差别体验,一套管理体系应对精细化企业治理,一朵分布式云实现全场景覆盖。

具体而言,一张分布式网络,指的是实现企业 IDC 到公有云环境的便捷和安全接入,构建企业多种组网环境之间的高效互通;通过 VPC 云边内网互通,中心云服务与企业机房本地应用实现无缝互访,且可分钟级按需发放到边缘。

 

在华为云分布式云产品经理郑梁看来,这意味着物理分布,逻辑归一的分布式 IT 架构,典型场景如中心训练、边缘推理;本地数据脱敏后,还可以将数据回传中心数据湖,持续增加训练样本迭代优化。

 

这种分布式 IT 架构的实现,依托于华为云擎天架构,提供一致的运行环境。部署的便捷和运行的按需弹性服务,是分布式云给予的保证。在企业日常运营中,本地部署可以满足数据低延迟的诉求,一旦出现流量洪峰,本地数据库和中心 Region 协同工作,缓解流量压力。

 

由于企业所处行业、组织架构不同,满足统一资源统筹和业务管理的诉求往往不易实现。华为云基于自身实践和对政企客户的深入了解,推出基于分布式云的管理体系,通过 EPS 和 IAM 的能力,构建一张整体管理视图,在人、物、财三方面实现精细化权限管理,匹配企业多层级、多部门的组织模型和管理诉求;通过 RMS 和 CES 能力,对整个分布式云统一资源管理和运维监控,进行精细化治理。 

在不同业务场景的部署上,这朵分布式云有多种表现形式:中心 Region、智能边缘云 IEC、智能边缘小站 IES、智能边缘平台 IEF 和专属 Region。如果按照网络的概念来类比,中心云类似骨干网的核心节点,智能边缘云类似于城域网节点,各类企业的现场边缘类似于接入网。

 

其中,中心 Region,服务丰富,满足集约效应和规模弹性;智能边缘云 IEC 提供小于 10ms 网络接入时延,实现热点区域的广覆盖和多线接入能力,满足就近接入及稳定低时延诉求,据郑梁介绍,IEC 帮助国内某头部直播平台实现转码质量提高 20%,带宽成本节省 50%以上。

 

区别于前者,智能边缘小站 IES,把云服务延伸到企业数据中心,满足数据本地化和极低时延的要求,目前具备 4 节点起步的能力,可无缝拓展至 16 柜,支持 10+云服务,提供小于 5ms 的本地时延,能实现整柜到货、4 周内快速交付。中图云创通过本地部署智能边缘小站 IES,在落地“全景新阅读”的沉浸式体验时,为 VR 设备提供端到端<30ms 稳定低时延,节省 30%的带宽成本。智能边缘云 IEC 和边缘小站 IES 的运维皆由华为云来负责。

 

智能边缘平台 IEF 更轻量化,向上支撑应用,向下封装资源,目前支持包括电力、交通等行业在内的 200+智能应用。在已经落地的全国高速取消省界项目中,实现了 7.4 万边缘节点,48 万边缘应用“一张网”管理,比传统方式提效 10 倍,使车辆省界通行时间从 15s 降低到 2s。

 

专属 Region 主要面向大型政企治理诉求,提供全栈数字化转型底座。已经可以看到的实例是,中国一汽部署专属 Region 后,整体运维效率提升 40%,通过使用全栈云服务,满足了企业办公、数字化营销、车联网、智慧出行等业务部署的要求。

 

这些服务的实现,底层扎根于华为云擎天架构,顶层则依靠华为云瑶光分布式云操作系统的统一调度、管理和分发。

华为云的“智慧云脑”——瑶光分布式云操作系统

 

瑶光是华为云在 2019 年底发布的国内首个分布式云操作系统,相当于华为云的“智慧云脑”。

 

在整体设计上,华为云瑶光的关键架构包含多个层次:顶层是智能资源经营系统,二层是多目标优化系统,三层是全域调度系统,四层是对分式云站点管理,最小单元则是对多元硬件的管理,已经率先实现对 x86、鲲鹏、昇腾等多样性算力的兼容。这五层系统,基于端到端的仿真平台,进行算法的训练仿真与迭代,实现分布式云操作系统的自学习和自调优。

瑶光的存在,目标实现全域资源供给极优,多样性算力使用极简。其中一大的难点在于,公有云租户对于云厂商们而言,动态变化的陌生租户业务类似一个黑盒,难以进行有效画像和预测。针对这个问题,瑶光构建了端到端的资源控制系统。

 

其通过采集 CPU 微架构、利用率、操作系统内核等指标建立 QoS 量化模型,实时监测每个实例 QoS 干扰水平,然后通过将“对抗学习”和“知识迁移”相结合。其中,华为云自研的特征识别 CDA-WGAN 算法能将业务特征识别准确度提升 10%以上,瑶光使用的自研 METRO 多维时序预测算法,与常用的开源算法相比能提升 40%的准确,降低 70%的误差。

 

此外,为了真正实现“一朵云”的全域调度并保障确定性 SLA,华为云开发了调度算法 DQA。DQA 通过对网络服务质量、计算资源成本、云站点资源均衡度分别建模,并在收益函数中进行统一计算,帮助业务时延降低 40%,同时成本优化达到 33%。 同时,为了匹配动态业务诉求,华为云瑶光建立了包含机型设计、容量规划、资源分配等全链路仿真平台,为了匹配动态业务诉求,华为云瑶光建立了包含机型设计、容量规划、资源分配等全链路仿真平台。

 

华为云瑶光将“复杂”留给自身,将“简单”交给客户。

“简单”背后的黑科技,容器技术再革新 


长期以来,云原生落地的两大拦路虎是技术的和管理的复杂性,到目前为止的相关实践都是对这两大难题的不断解码。容器技术作为近两年的热门,是云原生基础设施的核心。为了实现计算、网络、调度上的全面进阶,华为云研发了容器集群 CCE Turbo,并在今年为其装配容器卸载技术。 

目前,华为云主要在 3 方面对容器引擎进行了优化,集群整体性能提升了 40%:瘦身容器引擎,剔除冗余部件,优化内部执行逻辑;大量优化 Kubernets 中的 Pod,如基于 rust 语言重写 shimv2 和 agent,减少进程数量;大量优化容器引擎代码减少内存消耗,提升容器的启动性能和 Cgroup 管理能力。

 

在网络加速方面,CCE Turbo 实现了容器到 VPC 的直接连通,弹性网卡 Trunkport 能力,并在此基础上对容器级的网络安全组的安全和效率进一步提升,新增安全组相关的 Kubernetes CRD 对象,简化容器安全访问规则配置。此外,华为云通过实现离线和在线业务的混合部署,及调度能力升级,提升集群资源利用率。

 

值得一提的是,在调度方面,CCE Turbo 实现了面向应用的智能化调度,通过 IO Aware 等调度算法优化、队列优化、Alloc_set 等策略,提升大数据和 AI 作业调度效率,将 AI、大数据类任务计算时间缩短 30%~40%。

 

此外,华为云此前联合合作伙伴共同发布云原生服务中心 OSC,建立云原生服务生命周期治理规范并对接华为云应用市场。据悉,OSC 规范下的云原生应用,可以发布到所有支持 Operator、HELM 标准的仓库中,同时,OSC 还自动对接华为云容器引擎、多云容器平台、监控、告警等服务,实现应用跨公有云、专属云全球化无差异部署。目前,已经有 130+数据库、中间件及行业应用基于 OSC 适配。 

基础能力全面升级,推新场景化解决方案


基于擎天架构,华为云基础能力迎来全面升级,在计算层面,发布全新的通用计算增强型云服务器 C7;在存储层面,对 SFS Turbo、Data+都进行了升级;在网络层面,发布独享型 ELB 和 CLOUD WAN 解决方案。其中,C7 在视频转码、图像渲染等场景性能提升了 30%,在 MySQL 等数据库场景性能上提升了 50%,在 Nginx 等网络服务器场景性能上提升了 60%。

此外,华为云还推出两款全新场景化解决方案:异构计算三维建模联合解决方案和 4K 影视云制作解决方案。其中,异构计算三维建模联合解决方案由华为云和瞰景科技联合打造,建模性能提升 30%,单次测量即可达到精度要求;4K 影视云制作解决方案可以帮助节目制作的端到端效率提升 30%,成本大幅降低,将大幅加速 4K 节目的普及。

 

帮助企业实现全面云化、拥有全栈智能的能力充满挑战,也是当下所有云服务商共同面临的长期课题。不局限交付位置,能够将公有云服务分发到业务所需位置,通过对不同节点统一管理,满足低延迟、本地化、多种混合场景的用户需求,分布式云 x 云原生的优越性已经显而易见。可以预见,分布式云 x 云原生的进展将在未来几年决定云的走向。

2021-06-03 16:502440

评论

发布
暂无评论
发现更多内容

技术分享 | 如何基于阿里云AIACC加速Stable-Diffusion AI绘画

阿里云弹性计算

云计算 AIGC AIACC AI大语言模型 大语言模型

开源数据集成平台SeaTunnel:MySQL实时同步到es

javalover123

同步 数据同步 数据集成 CDC 实时

C++中vector自定义大小方式

芯动大师

企业利用bi商业智能工具有哪些改变呢?以瓴羊QuickBI为例

对不起该用户已成仙‖

BI商业智能工具给企业带来的变化,以瓴羊QuickBI为例

巷子

喜报 | 极限科技 Easysearch 获得由信通院颁布的首批可信搜索型数据库产品证书

极限实验室

大数据 搜索引擎 数据库· 极限科技 2023可信数据库发展大会

机器学习洞察 | JAX,机器学习领域的“新面孔”

亚马逊云科技 (Amazon Web Services)

机器学习

KaiwuDB 亮相 2023 可信数据库发展大会

KaiwuDB

KaiwuDB 2023可信数据库发展大会

6月《中国数据库行业分析报告》已发布,首发空间、搜索引擎数据库【全球产业图谱】

墨天轮

数据库 国产数据库 空间数据库 搜索引擎数据库

pprof 数据组装(一)

jupiter

pprof ebpf parca

从头学Java17-Stream API(二)结合Record、Optional

烧霞

Optional java17 Stream API

AWS云VS阿里云 横向对比

WuKongCoder

云计算 阿里云 AWS EMR

文创商城项目实战

猫九

JavaScript 函数

猫九

Git教学

猫九

git 学习

从php5.6到golang1.19-文库App性能跃迁之路

百度Geek说

golang App 百度文库

日本加密货币市场报告: 行业趋势和未来前景研究

Footprint Analytics

加密货币 区块链游戏 NFT Web3 游戏

供应链管理系统有哪些模块?

优秀

供应链管理 scm

生成式 AI 对未来的展望| 社区征文

查拉图斯特拉说

AI ChatGPT MidJourney 文生图 年中技术盘点

java面试题

程序员小张

新兴技术诞生,国产操作系统崛起| 社区征文

芯动大师

操作系统 国产开源 年中技术盘点

es笔记五之term-level的查询操作

Hunter熊

elasticsearch

华为云盘古气象大模型研究成果在《Nature》正刊发表

新消费日报

华为云书库《Spring Boot2系列实战教程》电子书下载

华为云PaaS服务小智

编程 软件开发 计算机 华为云 华为开发者大会

华为云“盘古气象”登上Nature!

新消费日报

探寻日本区块链游戏的未来潜力

Footprint Analytics

区块链游戏 NFT 链游

一文详解:企业大数据分析工具有哪些?

夜雨微澜

日本 NFT 项目概览与特点总结

Footprint Analytics

区块链游戏 NFT

代码随想录训练营Day08 - 字符串(上)

jjn0703

不容错过的基础设施专场!今天4点,关于全场景质量协同平台T-One的介绍 | 第86-96期

OpenAnolis小助手

开源 基础设施 操作系统 龙蜥大讲堂 T-one

深入理解 Python 虚拟机:字节(bytes)的实现原理及源码剖析

EquatorCoco

Python 虚拟机 字节

云原生2.0加速:分布式云探寻全面云化的通路_服务革新_张俊宝_InfoQ精选文章