写点什么

云原生 2.0 加速:分布式云探寻全面云化的通路

  • 2021-06-03
  • 本文字数:3579 字

    阅读完需:约 12 分钟

云原生2.0加速:分布式云探寻全面云化的通路

企业数字化转型成为势不可挡的浪潮,尤其后疫情时代,各行各业都在积极数字化转型,谋求新的市场环境下的生存空间。据 Gartner 预测,2021 年中国 IT 支出将达到 3.09 万亿,相比 2020 年增长 7.7%。市场需求的不断升级,促使云基础设施服务市场快速响应。

 

经历以“设备”为中心的服务器阶段,以“资源”为中心的云化阶段,企业数字化转型进程如今来到以“应用”为中心的云原生化阶段。降低人力依赖度,提高资源运维效率,降低部署繁杂度,提高应用便捷度,以及更加智能和安全可信,成为“云原生 2.0”区别于此前的主要优势。

 

在 4 月 8 日的华为云 TechWave 全球技术峰会上,华为云对去年提出的“云原生 2.0”进行进一步解读:全面云化和全栈智能是实现企业数字化治理的基石。换句话说,迁移平滑、运维稳定、开发便捷则是企业数字化转型的底色,分布式云 x 云原生在当下普遍被认为是企业实现数字化治理的有效通路。

 

5 月 31 日,华为云线上举办 TechWave 云基础设施专题日,基于云基础设施新范式进一步解读分布式云、云原生基础设施产品及背后黑科技,首次亮相分布式云操作系统瑶光。

“一朵云”的关键特点

 

华为云分布式云具备四个关键特点:一张分布式网络满足便捷安全接入,一致运行环境构建无差别体验,一套管理体系应对精细化企业治理,一朵分布式云实现全场景覆盖。

具体而言,一张分布式网络,指的是实现企业 IDC 到公有云环境的便捷和安全接入,构建企业多种组网环境之间的高效互通;通过 VPC 云边内网互通,中心云服务与企业机房本地应用实现无缝互访,且可分钟级按需发放到边缘。

 

在华为云分布式云产品经理郑梁看来,这意味着物理分布,逻辑归一的分布式 IT 架构,典型场景如中心训练、边缘推理;本地数据脱敏后,还可以将数据回传中心数据湖,持续增加训练样本迭代优化。

 

这种分布式 IT 架构的实现,依托于华为云擎天架构,提供一致的运行环境。部署的便捷和运行的按需弹性服务,是分布式云给予的保证。在企业日常运营中,本地部署可以满足数据低延迟的诉求,一旦出现流量洪峰,本地数据库和中心 Region 协同工作,缓解流量压力。

 

由于企业所处行业、组织架构不同,满足统一资源统筹和业务管理的诉求往往不易实现。华为云基于自身实践和对政企客户的深入了解,推出基于分布式云的管理体系,通过 EPS 和 IAM 的能力,构建一张整体管理视图,在人、物、财三方面实现精细化权限管理,匹配企业多层级、多部门的组织模型和管理诉求;通过 RMS 和 CES 能力,对整个分布式云统一资源管理和运维监控,进行精细化治理。 

在不同业务场景的部署上,这朵分布式云有多种表现形式:中心 Region、智能边缘云 IEC、智能边缘小站 IES、智能边缘平台 IEF 和专属 Region。如果按照网络的概念来类比,中心云类似骨干网的核心节点,智能边缘云类似于城域网节点,各类企业的现场边缘类似于接入网。

 

其中,中心 Region,服务丰富,满足集约效应和规模弹性;智能边缘云 IEC 提供小于 10ms 网络接入时延,实现热点区域的广覆盖和多线接入能力,满足就近接入及稳定低时延诉求,据郑梁介绍,IEC 帮助国内某头部直播平台实现转码质量提高 20%,带宽成本节省 50%以上。

 

区别于前者,智能边缘小站 IES,把云服务延伸到企业数据中心,满足数据本地化和极低时延的要求,目前具备 4 节点起步的能力,可无缝拓展至 16 柜,支持 10+云服务,提供小于 5ms 的本地时延,能实现整柜到货、4 周内快速交付。中图云创通过本地部署智能边缘小站 IES,在落地“全景新阅读”的沉浸式体验时,为 VR 设备提供端到端<30ms 稳定低时延,节省 30%的带宽成本。智能边缘云 IEC 和边缘小站 IES 的运维皆由华为云来负责。

 

智能边缘平台 IEF 更轻量化,向上支撑应用,向下封装资源,目前支持包括电力、交通等行业在内的 200+智能应用。在已经落地的全国高速取消省界项目中,实现了 7.4 万边缘节点,48 万边缘应用“一张网”管理,比传统方式提效 10 倍,使车辆省界通行时间从 15s 降低到 2s。

 

专属 Region 主要面向大型政企治理诉求,提供全栈数字化转型底座。已经可以看到的实例是,中国一汽部署专属 Region 后,整体运维效率提升 40%,通过使用全栈云服务,满足了企业办公、数字化营销、车联网、智慧出行等业务部署的要求。

 

这些服务的实现,底层扎根于华为云擎天架构,顶层则依靠华为云瑶光分布式云操作系统的统一调度、管理和分发。

华为云的“智慧云脑”——瑶光分布式云操作系统

 

瑶光是华为云在 2019 年底发布的国内首个分布式云操作系统,相当于华为云的“智慧云脑”。

 

在整体设计上,华为云瑶光的关键架构包含多个层次:顶层是智能资源经营系统,二层是多目标优化系统,三层是全域调度系统,四层是对分式云站点管理,最小单元则是对多元硬件的管理,已经率先实现对 x86、鲲鹏、昇腾等多样性算力的兼容。这五层系统,基于端到端的仿真平台,进行算法的训练仿真与迭代,实现分布式云操作系统的自学习和自调优。

瑶光的存在,目标实现全域资源供给极优,多样性算力使用极简。其中一大的难点在于,公有云租户对于云厂商们而言,动态变化的陌生租户业务类似一个黑盒,难以进行有效画像和预测。针对这个问题,瑶光构建了端到端的资源控制系统。

 

其通过采集 CPU 微架构、利用率、操作系统内核等指标建立 QoS 量化模型,实时监测每个实例 QoS 干扰水平,然后通过将“对抗学习”和“知识迁移”相结合。其中,华为云自研的特征识别 CDA-WGAN 算法能将业务特征识别准确度提升 10%以上,瑶光使用的自研 METRO 多维时序预测算法,与常用的开源算法相比能提升 40%的准确,降低 70%的误差。

 

此外,为了真正实现“一朵云”的全域调度并保障确定性 SLA,华为云开发了调度算法 DQA。DQA 通过对网络服务质量、计算资源成本、云站点资源均衡度分别建模,并在收益函数中进行统一计算,帮助业务时延降低 40%,同时成本优化达到 33%。 同时,为了匹配动态业务诉求,华为云瑶光建立了包含机型设计、容量规划、资源分配等全链路仿真平台,为了匹配动态业务诉求,华为云瑶光建立了包含机型设计、容量规划、资源分配等全链路仿真平台。

 

华为云瑶光将“复杂”留给自身,将“简单”交给客户。

“简单”背后的黑科技,容器技术再革新 


长期以来,云原生落地的两大拦路虎是技术的和管理的复杂性,到目前为止的相关实践都是对这两大难题的不断解码。容器技术作为近两年的热门,是云原生基础设施的核心。为了实现计算、网络、调度上的全面进阶,华为云研发了容器集群 CCE Turbo,并在今年为其装配容器卸载技术。 

目前,华为云主要在 3 方面对容器引擎进行了优化,集群整体性能提升了 40%:瘦身容器引擎,剔除冗余部件,优化内部执行逻辑;大量优化 Kubernets 中的 Pod,如基于 rust 语言重写 shimv2 和 agent,减少进程数量;大量优化容器引擎代码减少内存消耗,提升容器的启动性能和 Cgroup 管理能力。

 

在网络加速方面,CCE Turbo 实现了容器到 VPC 的直接连通,弹性网卡 Trunkport 能力,并在此基础上对容器级的网络安全组的安全和效率进一步提升,新增安全组相关的 Kubernetes CRD 对象,简化容器安全访问规则配置。此外,华为云通过实现离线和在线业务的混合部署,及调度能力升级,提升集群资源利用率。

 

值得一提的是,在调度方面,CCE Turbo 实现了面向应用的智能化调度,通过 IO Aware 等调度算法优化、队列优化、Alloc_set 等策略,提升大数据和 AI 作业调度效率,将 AI、大数据类任务计算时间缩短 30%~40%。

 

此外,华为云此前联合合作伙伴共同发布云原生服务中心 OSC,建立云原生服务生命周期治理规范并对接华为云应用市场。据悉,OSC 规范下的云原生应用,可以发布到所有支持 Operator、HELM 标准的仓库中,同时,OSC 还自动对接华为云容器引擎、多云容器平台、监控、告警等服务,实现应用跨公有云、专属云全球化无差异部署。目前,已经有 130+数据库、中间件及行业应用基于 OSC 适配。 

基础能力全面升级,推新场景化解决方案


基于擎天架构,华为云基础能力迎来全面升级,在计算层面,发布全新的通用计算增强型云服务器 C7;在存储层面,对 SFS Turbo、Data+都进行了升级;在网络层面,发布独享型 ELB 和 CLOUD WAN 解决方案。其中,C7 在视频转码、图像渲染等场景性能提升了 30%,在 MySQL 等数据库场景性能上提升了 50%,在 Nginx 等网络服务器场景性能上提升了 60%。

此外,华为云还推出两款全新场景化解决方案:异构计算三维建模联合解决方案和 4K 影视云制作解决方案。其中,异构计算三维建模联合解决方案由华为云和瞰景科技联合打造,建模性能提升 30%,单次测量即可达到精度要求;4K 影视云制作解决方案可以帮助节目制作的端到端效率提升 30%,成本大幅降低,将大幅加速 4K 节目的普及。

 

帮助企业实现全面云化、拥有全栈智能的能力充满挑战,也是当下所有云服务商共同面临的长期课题。不局限交付位置,能够将公有云服务分发到业务所需位置,通过对不同节点统一管理,满足低延迟、本地化、多种混合场景的用户需求,分布式云 x 云原生的优越性已经显而易见。可以预见,分布式云 x 云原生的进展将在未来几年决定云的走向。

2021-06-03 16:502456

评论

发布
暂无评论
发现更多内容

MapReduce练习案例4 -求共同好友

小马哥

大数据 hadoop mapreduce 七日更

提词器来了 | 视频号28天(23)

赵新龙

28天写作

Soul 源码阅读 06|Nacos 同步数据分析

哼干嘛

Elasticsearch 是分布式文件存储么 ?

escray

elastic 七日更 28天写作 死磕Elasticsearch 60天通过Elastic认证考试

localStorage和sessionStorage本地存储

我是哪吒

html html5 面试 大前端 html/css

GTX1060安装TF2-GPU

IT蜗壳-Tango

七日更

14天1000+大集群滚动升级,银行柜台竟然毫无感觉

华为云开发者联盟

大数据 金融 FusionInsight 华为云 集群

区块链真正的价值即将“引爆”行业应用

CECBC

区块链金融

半导体芯片小白基础知识(1) (28天写作 Day22/28)

mtfelix

芯片 半导体 集成电路 28天写作

老同学遭遇电信诈骗纪实

石君

28天写作 电信诈骗

融资融券两融系统搭建开发

v16629866266

回到过去就能无憾了吗?「幻想短篇 22/28」

道伟

28天写作

机器学习·笔记之:Gradient Descent

Nydia

团队建设,凝聚人心打胜战

一笑

管理 团队建设 28天写作

数字货币将如何改变日常生活

CECBC

数字货币

管理笔记[1]:成为管理者的开端“以人文本“

L3C老司机

资本市场两极分化将是新常态

JiangX

28天写作

【Node.js】事件触发器 - 基础篇

德育处主任

Node 28天写作

两种端到端通用目标检测方法

华为云开发者联盟

训练 目标检测 端到端 DETR DeFCN

jdk8 String和StringBuilder对象创建所在位置

ilovealt

Java string StringBuilder

谁,是产品的利益相关方?

不离

极客大学认识产品经理 极客大学产品经理训练营 跟着二爷学产品

28天瞎写的第二百三十二天:转角遇到蚵仔煎

树上

28天写作

字节跳动:“挖”出来的技术战斗力

李忠良

28天写作

创业失败启示录|神奇的茶学

阿萌

28天写作 创业失败启示录 青城

浅说 SQLite 的许可证模式

Justin

开源 版权保护 28天写作

苹果设备电池及充电周期

张老蔫

28天写作

架构解读丨Volcano作业资源预留设计原理

华为云开发者联盟

批处理 Volcano 资源预留 作业资源预留

架构师训练营第 2 期 第 7 周 作业一

老腊肉

架构师训练营第2期

h-index

lidaobing

28天写作 h-index

区块链人才能力评价测试机构亮相

CECBC

区块链人才

老外程序员的Java性能优化方式是什么?JVM调优策略+工具+技巧

Java架构追梦

Java 学习 架构 面试 jvm调优

云原生2.0加速:分布式云探寻全面云化的通路_服务革新_张俊宝_InfoQ精选文章