据 Flexera 的一份调研报告显示,大多数公司每年在云上的花费超过 100 万美元,多达三分之一的云计算资源没有被有效地使用或被浪费。可见,虽然按需弹性是云计算的优势,但如果资源规划、配置以及利用的方式不当,都会造成巨大的资源浪费。
企业到底如何实现“用好云”的目标?又该如何使资源效能发挥出最大的优势,带来成本结构的优化改善?7 月 21 日,百度世界 2022 在线上召开,大会主论坛以“云智一体赋能实体经济发展”为主题,介绍了百度在能源、工业以及智慧城市的深入实践。此外,围绕降本增效、云智一体等话题,百度副总裁侯震宇等嘉宾在百度世界的子栏目《AI 可见度》中,又进行了深入地解读。为了挖掘企业“用好云”的关键路径以及百度集团上云的实战经验,InfoQ 也有幸对百度集团副总裁侯震宇进行了一次独家专访。
从企业 IT 资源优化的关键路径说起
作为数字经济的强大底座,云计算不仅要保持高稳定、高性能,还要具备高性价比的特性。目前,我们看到云服务已经基本能够满足上述提到的因素,但与此同时,无论是互联网企业还是传统企业,大家依然有持续降本增效的需求。因此,当企业走过了“上云”和“用云”的初期阶段,“用好云”则成为了更进阶的问题。
企业“用好云”的关键路径究竟是什么?侯震宇在采访中提到:“企业要想真正用好云,需要重新思考业务战略目标、技术理念以及组织能力三方面因素,从而实现真正意义上的云原生。”
企业需要围绕业务战略明确“上云”“用云”的目标,判断如何选择更加高效的基础服务。通常来说,想清楚这一步是企业实现持续用好云的关键。其次,为了满足业务创新和持续发展的要求,企业还需要将 IT 技术架构进行改造和升级,具体可以分为以下三个方面:
第一,选择“用好云”的基础架构。企业需要意识到,云服务的核心优势不仅仅停留在虚拟化和弹性,其还具备多形态的算力、产品以及增值等能力。例如,如果常规业务能够接受多样的算力形态,使用弹性、竞价抢占、潮汐算力等特性,相比常驻资源,成本预计会降低 2/3 以上;而对于在容器 K8s 上的业务,如果开启混部等能力,CPU 资源利用率可以提升到 45% ,甚至更高;
第二,设计面向云的业务架构。这就要求企业的 IT 团队在设计业务架构时,让业务架构具备服务化、弹性伸缩、可迁移性、可观测性以及韧性等云原生架构特性,从而把“上云”“用云”的价值发挥到最大;
第三,面向云的组织建设也同样重要。企业需要把云、基础架构、业务架构、运维等团队有机地结合在一起,建立专门的资源运营团队负责把控和规划,建立专业的服务体系连接云和各个业务方,最终让公司和每个业务都取得目标收益。
当然,企业在上云的过程中势必会带来短期的额外成本,如人力投入、资金投入等等,但从长远的角度来看,上云也将带来研发效能和资源效能的最大化,企业需要用长期主义的思维进行决策,坚定上云的选择。
“一明一暗”两条线,百度的资源治理实践
一直以来,百度自身就是云原生技术的实践者。侯震宇在采访时透露,约在五年前,百度就开始建设面向未来的基础架构,推进业务容器上云。在整个实践的过程中,资源治理也成为了百度要解决的一个首要问题。在降本增效目标的驱动下,百度也启动了为期 3 年的云上战略,总结来说就是“一明一暗”两条线。
在明线上,开展产品 & 硬件云网融合,产品技术统一规划,全面覆盖研发环境、应用架构和基础设施:首先,通过百度智能云,在绿色低碳 IDC、AI 服务器、昆仑 XPU、太行 DPU、高性能存储、网络等全栈云原生基础设施的加持下,实现了客户和百度集团业务的计算、存储等资源共池,资源灵活周转、调度和高效交付;面对超万台节点规模的大型业务单元需求,实现一周内全面交付。
其次,结合超大规模云原生混部调度、容量预测和智能弹性技术,在保障资源质量和安全隔离的基础上,让整体资源利用效率提升 45%+,单位 IT 成本下降超过三分之一,利用独特的潮汐算力技术,实现内外分时复用,让极致的绿色算力全面落地;
最后,打造了一站式云原生平台,结合云原生数据库、云原生实时数仓等技术,构建了全链条云原生生态。目前,百度超过 95% 的业务应用已经全面云原生化,所有核心业务都具备高弹性高可用和敏捷迭代的能力。
在暗线上,百度启动了大资源运营体系建设,围绕 IT 资源的生命周期,针对资源效能目标进行拆解、量化、分析,对集团经营管理侧、业务用云侧进行牵引指导,开展了诸如零基预算、需求报备、定价结算、韧性供应链等体系化产品建设,并分别从容量、质量、交付、成本多个维度进行度量评价,不仅推动了经营理念从 TCO 到 TVO 的变革,还实现了供给端 & 消费端理念和机制的转变。最终,变革后的预算管理机制,让内部各个业务线对资源的看待视角发生了转变,基础设施资源和云化资源管理拉通以后,每年还能持续为百度贡献约 10 亿元的成本优化。
不难发现,百度资源治理的实践其实与 FinOps 理念是不谋而合的,不仅帮助企业通过财务的视角,思考、规划应该如何使用这朵云,也让企业在享受云原生化技术红利的同时,又实现了 IT 资源降本增效的目标。
全栈基础设施云原生化,提供强大的后坐力
目前,百度已经将内部孵化出的技术能力挪到了云上,以期为更多用户提供强大的基础设施。要知道,百度的业务是非常复杂的,各种类型的应用,各种各样的数据,都依赖于百度强大的基础架构。说到这里,如果你依旧不能清晰地感知到百度业务的复杂性,或许可以通过这组数据进行参考:百度总容量已经达到数十 EB,每天新增的数据量就有数十 P,每天处理的数据超过百 P,峰值处理每秒达 10TB。
而百度智能云之所以具备稳定、高性能等特性,自然也离不开底层技术的支持。一直以来,百度智能云都在关注整个技术发展领域,在 AI 成为技术潮流的背景下,百度智能云实现了全栈自研,建设了最适合跑 AI 的基础设施。
随着数字经济时代全面开启,数据中心的建设规模不断扩大,数据中心的绿色低碳发展也成为各方关注的焦点。基于此,百度在低碳计算方面也投入了很大精力,自建 PUE 领先的数据中心,使用“市电 +HVDC Offline”供电方案,应用“冰川”相变冷却技术,采用基于百度“飞桨”智能控制系统实时监测数据并调优,能效最高单体数据中心年均 PUE 低至 1.08。
此外,为了打造出最适合跑 AI 的基础设施,百度还需要在整个计算体系层面上提高效率,正如 Intel 中国区物联网事业部首席技术官张宇在《AI 可见度》分论坛提到的那样:“面对不断演进的数字化需求,英特尔将继续深化与包括百度在内的生态伙伴的合作,以“绿色、低碳”为出发点,将更多优秀的技术和解决方案推向市场,为个人、产业和社会创造更多的便利和价值。”
为此,百度不仅和 Intel 联合打造了百度定制的 Intel CPU,还自研了多类芯片、设计了为 AI 场景优化的服务器,如百度自研的昆仑芯片、太行 DPU 以及超级 AI 计算机 X-MAN 等。与此同时,随着现在 CPU 的处理能力越来越强,各个计算节点之间的数据交换也会变得更加密集,需要有非常好的低延时网络服务来支撑,所以,在软件层面上,百度智能云定义了自己的网络协议栈,建设了超低时延网络。
“从最底层的低碳绿色数据中心,到我们自研的芯片,再到多芯片的适配,最后到上层集群和软件,我们希望能够打造出全国面向 AI 环境最领先的 AI 超算集群。”侯震宇在《AI 可见度》分论坛中总结道。
作为最适合跑 AI 的基础设施,百度智能云提供了丰富的 GPU 容器虚拟化、推理 / 训练加速、数据 / 镜像加速等能力,全面使用这些能力,会让 GPU 利用率达到 80% 甚至更高,作业效率更能够有 3-5 倍的提升。
写在最后
“云服务,原来只是一个简单、算得过账的工具,如今已经演变成一个能给企业提供生命力的新系统,甚至能够成为企业可持续发展的重要组成部分。”侯震宇说道。
可以预见的是,在 AI 技术的强烈冲击下,传统的通用型算力架构已经被时代所抛弃,企业更需要的是面向智能的计算能力,以提供更高效、稳定、高性价比的计算平台。目前,百度智能云已经将 AI 的能力以及软件层面的能力,真正地注入到了云底座,基于百度智能云提供的“云智一体”服务,可以帮助企业在节省芯片、算法等硬性投入的同时,降低对专业人才的依赖。
回归到开篇的提问:企业到底如何才能实现“用好云”的目标,相信可以在百度智能云中找到捷径和答案。
评论