据 Flexera 的一份调研报告显示，大多数公司每年在云上的花费超过 100 万美元，多达三分之一的云计算资源没有被有效地使用或被浪费。可见，虽然按需弹性是云计算的优势，但如果资源规划、配置以及利用的方式不当，都会造成巨大的资源浪费。

企业到底如何实现“用好云”的目标？又该如何使资源效能发挥出最大的优势，带来成本结构的优化改善？7 月 21 日，百度世界 2022 在线上召开，大会主论坛以“云智一体赋能实体经济发展”为主题，介绍了百度在能源、工业以及智慧城市的深入实践。此外，围绕降本增效、云智一体等话题，百度副总裁侯震宇等嘉宾在百度世界的子栏目《AI 可见度》中，又进行了深入地解读。为了挖掘企业“用好云”的关键路径以及百度集团上云的实战经验，InfoQ 也有幸对百度集团副总裁侯震宇进行了一次独家专访。

从企业 IT 资源优化的关键路径说起

作为数字经济的强大底座，云计算不仅要保持高稳定、高性能，还要具备高性价比的特性。目前，我们看到云服务已经基本能够满足上述提到的因素，但与此同时，无论是互联网企业还是传统企业，大家依然有持续降本增效的需求。因此，当企业走过了“上云”和“用云”的初期阶段，“用好云”则成为了更进阶的问题。

企业“用好云”的关键路径究竟是什么？侯震宇在采访中提到：“企业要想真正用好云，需要重新思考业务战略目标、技术理念以及组织能力三方面因素，从而实现真正意义上的云原生。”

企业需要围绕业务战略明确“上云”“用云”的目标，判断如何选择更加高效的基础服务。通常来说，想清楚这一步是企业实现持续用好云的关键。其次，为了满足业务创新和持续发展的要求，企业还需要将 IT 技术架构进行改造和升级，具体可以分为以下三个方面：

第一，选择“用好云”的基础架构。企业需要意识到，云服务的核心优势不仅仅停留在虚拟化和弹性，其还具备多形态的算力、产品以及增值等能力。例如，如果常规业务能够接受多样的算力形态，使用弹性、竞价抢占、潮汐算力等特性，相比常驻资源，成本预计会降低 2/3 以上；而对于在容器 K8s 上的业务，如果开启混部等能力，CPU 资源利用率可以提升到 45% ，甚至更高；

第二，设计面向云的业务架构。这就要求企业的 IT 团队在设计业务架构时，让业务架构具备服务化、弹性伸缩、可迁移性、可观测性以及韧性等云原生架构特性，从而把“上云”“用云”的价值发挥到最大；

第三，面向云的组织建设也同样重要。企业需要把云、基础架构、业务架构、运维等团队有机地结合在一起，建立专门的资源运营团队负责把控和规划，建立专业的服务体系连接云和各个业务方，最终让公司和每个业务都取得目标收益。

当然，企业在上云的过程中势必会带来短期的额外成本，如人力投入、资金投入等等，但从长远的角度来看，上云也将带来研发效能和资源效能的最大化，企业需要用长期主义的思维进行决策，坚定上云的选择。

“一明一暗”两条线，百度的资源治理实践

一直以来，百度自身就是云原生技术的实践者。侯震宇在采访时透露，约在五年前，百度就开始建设面向未来的基础架构，推进业务容器上云。在整个实践的过程中，资源治理也成为了百度要解决的一个首要问题。在降本增效目标的驱动下，百度也启动了为期 3 年的云上战略，总结来说就是“一明一暗”两条线。

在明线上，开展产品 & 硬件云网融合，产品技术统一规划，全面覆盖研发环境、应用架构和基础设施：首先，通过百度智能云，在绿色低碳 IDC、AI 服务器、昆仑 XPU、太行 DPU、高性能存储、网络等全栈云原生基础设施的加持下，实现了客户和百度集团业务的计算、存储等资源共池，资源灵活周转、调度和高效交付；面对超万台节点规模的大型业务单元需求，实现一周内全面交付。

其次，结合超大规模云原生混部调度、容量预测和智能弹性技术，在保障资源质量和安全隔离的基础上，让整体资源利用效率提升 45%+，单位 IT 成本下降超过三分之一，利用独特的潮汐算力技术，实现内外分时复用，让极致的绿色算力全面落地；

最后，打造了一站式云原生平台，结合云原生数据库、云原生实时数仓等技术，构建了全链条云原生生态。目前，百度超过 95% 的业务应用已经全面云原生化，所有核心业务都具备高弹性高可用和敏捷迭代的能力。

在暗线上，百度启动了大资源运营体系建设，围绕 IT 资源的生命周期，针对资源效能目标进行拆解、量化、分析，对集团经营管理侧、业务用云侧进行牵引指导，开展了诸如零基预算、需求报备、定价结算、韧性供应链等体系化产品建设，并分别从容量、质量、交付、成本多个维度进行度量评价，不仅推动了经营理念从 TCO 到 TVO 的变革，还实现了供给端 & 消费端理念和机制的转变。最终，变革后的预算管理机制，让内部各个业务线对资源的看待视角发生了转变，基础设施资源和云化资源管理拉通以后，每年还能持续为百度贡献约 10 亿元的成本优化。

不难发现，百度资源治理的实践其实与 FinOps 理念是不谋而合的，不仅帮助企业通过财务的视角，思考、规划应该如何使用这朵云，也让企业在享受云原生化技术红利的同时，又实现了 IT 资源降本增效的目标。

全栈基础设施云原生化，提供强大的后坐力

目前，百度已经将内部孵化出的技术能力挪到了云上，以期为更多用户提供强大的基础设施。要知道，百度的业务是非常复杂的，各种类型的应用，各种各样的数据，都依赖于百度强大的基础架构。说到这里，如果你依旧不能清晰地感知到百度业务的复杂性，或许可以通过这组数据进行参考：百度总容量已经达到数十 EB，每天新增的数据量就有数十 P，每天处理的数据超过百 P，峰值处理每秒达 10TB。

而百度智能云之所以具备稳定、高性能等特性，自然也离不开底层技术的支持。一直以来，百度智能云都在关注整个技术发展领域，在 AI 成为技术潮流的背景下，百度智能云实现了全栈自研，建设了最适合跑 AI 的基础设施。

随着数字经济时代全面开启，数据中心的建设规模不断扩大，数据中心的绿色低碳发展也成为各方关注的焦点。基于此，百度在低碳计算方面也投入了很大精力，自建 PUE 领先的数据中心，使用“市电 +HVDC Offline”供电方案，应用“冰川”相变冷却技术，采用基于百度“飞桨”智能控制系统实时监测数据并调优，能效最高单体数据中心年均 PUE 低至 1.08。

此外，为了打造出最适合跑 AI 的基础设施，百度还需要在整个计算体系层面上提高效率，正如 Intel 中国区物联网事业部首席技术官张宇在《AI 可见度》分论坛提到的那样：“面对不断演进的数字化需求，英特尔将继续深化与包括百度在内的生态伙伴的合作，以“绿色、低碳”为出发点，将更多优秀的技术和解决方案推向市场，为个人、产业和社会创造更多的便利和价值。”

为此，百度不仅和 Intel 联合打造了百度定制的 Intel CPU，还自研了多类芯片、设计了为 AI 场景优化的服务器，如百度自研的昆仑芯片、太行 DPU 以及超级 AI 计算机 X-MAN 等。与此同时，随着现在 CPU 的处理能力越来越强，各个计算节点之间的数据交换也会变得更加密集，需要有非常好的低延时网络服务来支撑，所以，在软件层面上，百度智能云定义了自己的网络协议栈，建设了超低时延网络。

“从最底层的低碳绿色数据中心，到我们自研的芯片，再到多芯片的适配，最后到上层集群和软件，我们希望能够打造出全国面向 AI 环境最领先的 AI 超算集群。”侯震宇在《AI 可见度》分论坛中总结道。

作为最适合跑 AI 的基础设施，百度智能云提供了丰富的 GPU 容器虚拟化、推理 / 训练加速、数据 / 镜像加速等能力，全面使用这些能力，会让 GPU 利用率达到 80% 甚至更高，作业效率更能够有 3-5 倍的提升。

写在最后

“云服务，原来只是一个简单、算得过账的工具，如今已经演变成一个能给企业提供生命力的新系统，甚至能够成为企业可持续发展的重要组成部分。”侯震宇说道。

可以预见的是，在 AI 技术的强烈冲击下，传统的通用型算力架构已经被时代所抛弃，企业更需要的是面向智能的计算能力，以提供更高效、稳定、高性价比的计算平台。目前，百度智能云已经将 AI 的能力以及软件层面的能力，真正地注入到了云底座，基于百度智能云提供的“云智一体”服务，可以帮助企业在节省芯片、算法等硬性投入的同时，降低对专业人才的依赖。

回归到开篇的提问：企业到底如何才能实现“用好云”的目标，相信可以在百度智能云中找到捷径和答案。

创作场景

专访百度副总裁侯震宇：企业如何解决“用好云”的进阶问题？

从企业 IT 资源优化的关键路径说起

“一明一暗”两条线，百度的资源治理实践

全栈基础设施云原生化，提供强大的后坐力

写在最后