写点什么

专访百度副总裁侯震宇:企业如何解决“用好云”的进阶问题?

  • 2022-07-21
  • 本文字数:3311 字

    阅读完需:约 11 分钟

专访百度副总裁侯震宇:企业如何解决“用好云”的进阶问题?

据 Flexera 的一份调研报告显示,大多数公司每年在云上的花费超过 100 万美元,多达三分之一的云计算资源没有被有效地使用或被浪费。可见,虽然按需弹性是云计算的优势,但如果资源规划、配置以及利用的方式不当,都会造成巨大的资源浪费。


企业到底如何实现“用好云”的目标?又该如何使资源效能发挥出最大的优势,带来成本结构的优化改善?7 月 21 日,百度世界 2022 在线上召开,大会主论坛以“云智一体赋能实体经济发展”为主题,介绍了百度在能源、工业以及智慧城市的深入实践。此外,围绕降本增效、云智一体等话题,百度副总裁侯震宇等嘉宾在百度世界的子栏目《AI 可见度》中,又进行了深入地解读。为了挖掘企业“用好云”的关键路径以及百度集团上云的实战经验,InfoQ 也有幸对百度集团副总裁侯震宇进行了一次独家专访。


从企业 IT 资源优化的关键路径说起


作为数字经济的强大底座,云计算不仅要保持高稳定、高性能,还要具备高性价比的特性。目前,我们看到云服务已经基本能够满足上述提到的因素,但与此同时,无论是互联网企业还是传统企业,大家依然有持续降本增效的需求。因此,当企业走过了“上云”和“用云”的初期阶段,“用好云”则成为了更进阶的问题。


企业“用好云”的关键路径究竟是什么?侯震宇在采访中提到:“企业要想真正用好云,需要重新思考业务战略目标、技术理念以及组织能力三方面因素,从而实现真正意义上的云原生。”


企业需要围绕业务战略明确“上云”“用云”的目标,判断如何选择更加高效的基础服务。通常来说,想清楚这一步是企业实现持续用好云的关键。其次,为了满足业务创新和持续发展的要求,企业还需要将 IT 技术架构进行改造和升级,具体可以分为以下三个方面:


第一,选择“用好云”的基础架构。企业需要意识到,云服务的核心优势不仅仅停留在虚拟化和弹性,其还具备多形态的算力、产品以及增值等能力。例如,如果常规业务能够接受多样的算力形态,使用弹性、竞价抢占、潮汐算力等特性,相比常驻资源,成本预计会降低 2/3 以上;而对于在容器 K8s 上的业务,如果开启混部等能力,CPU 资源利用率可以提升到 45% ,甚至更高;


第二,设计面向云的业务架构。这就要求企业的 IT 团队在设计业务架构时,让业务架构具备服务化、弹性伸缩、可迁移性、可观测性以及韧性等云原生架构特性,从而把“上云”“用云”的价值发挥到最大;


第三,面向云的组织建设也同样重要。企业需要把云、基础架构、业务架构、运维等团队有机地结合在一起,建立专门的资源运营团队负责把控和规划,建立专业的服务体系连接云和各个业务方,最终让公司和每个业务都取得目标收益。


当然,企业在上云的过程中势必会带来短期的额外成本,如人力投入、资金投入等等,但从长远的角度来看,上云也将带来研发效能和资源效能的最大化,企业需要用长期主义的思维进行决策,坚定上云的选择。

“一明一暗”两条线,百度的资源治理实践


一直以来,百度自身就是云原生技术的实践者。侯震宇在采访时透露,约在五年前,百度就开始建设面向未来的基础架构,推进业务容器上云。在整个实践的过程中,资源治理也成为了百度要解决的一个首要问题。在降本增效目标的驱动下,百度也启动了为期 3 年的云上战略,总结来说就是“一明一暗”两条线。


在明线上,开展产品 & 硬件云网融合,产品技术统一规划,全面覆盖研发环境、应用架构和基础设施:首先,通过百度智能云,在绿色低碳 IDC、AI 服务器、昆仑 XPU、太行 DPU、高性能存储、网络等全栈云原生基础设施的加持下,实现了客户和百度集团业务的计算、存储等资源共池,资源灵活周转、调度和高效交付;面对超万台节点规模的大型业务单元需求,实现一周内全面交付。


其次,结合超大规模云原生混部调度、容量预测和智能弹性技术,在保障资源质量和安全隔离的基础上,让整体资源利用效率提升 45%+,单位 IT 成本下降超过三分之一,利用独特的潮汐算力技术,实现内外分时复用,让极致的绿色算力全面落地;


最后,打造了一站式云原生平台,结合云原生数据库、云原生实时数仓等技术,构建了全链条云原生生态。目前,百度超过 95% 的业务应用已经全面云原生化,所有核心业务都具备高弹性高可用和敏捷迭代的能力。


在暗线上,百度启动了大资源运营体系建设,围绕 IT 资源的生命周期,针对资源效能目标进行拆解、量化、分析,对集团经营管理侧、业务用云侧进行牵引指导,开展了诸如零基预算、需求报备、定价结算、韧性供应链等体系化产品建设,并分别从容量、质量、交付、成本多个维度进行度量评价,不仅推动了经营理念从 TCO 到 TVO 的变革,还实现了供给端 & 消费端理念和机制的转变。最终,变革后的预算管理机制,让内部各个业务线对资源的看待视角发生了转变,基础设施资源和云化资源管理拉通以后,每年还能持续为百度贡献约 10 亿元的成本优化。


不难发现,百度资源治理的实践其实与 FinOps 理念是不谋而合的,不仅帮助企业通过财务的视角,思考、规划应该如何使用这朵云,也让企业在享受云原生化技术红利的同时,又实现了 IT 资源降本增效的目标。

全栈基础设施云原生化,提供强大的后坐力


目前,百度已经将内部孵化出的技术能力挪到了云上,以期为更多用户提供强大的基础设施。要知道,百度的业务是非常复杂的,各种类型的应用,各种各样的数据,都依赖于百度强大的基础架构。说到这里,如果你依旧不能清晰地感知到百度业务的复杂性,或许可以通过这组数据进行参考:百度总容量已经达到数十 EB,每天新增的数据量就有数十 P,每天处理的数据超过百 P,峰值处理每秒达 10TB。


而百度智能云之所以具备稳定、高性能等特性,自然也离不开底层技术的支持。一直以来,百度智能云都在关注整个技术发展领域,在 AI 成为技术潮流的背景下,百度智能云实现了全栈自研,建设了最适合跑 AI 的基础设施。


随着数字经济时代全面开启,数据中心的建设规模不断扩大,数据中心的绿色低碳发展也成为各方关注的焦点。基于此,百度在低碳计算方面也投入了很大精力,自建 PUE 领先的数据中心,使用“市电 +HVDC Offline”供电方案,应用“冰川”相变冷却技术,采用基于百度“飞桨”智能控制系统实时监测数据并调优,能效最高单体数据中心年均 PUE 低至 1.08。


此外,为了打造出最适合跑 AI 的基础设施,百度还需要在整个计算体系层面上提高效率,正如 Intel 中国区物联网事业部首席技术官张宇在《AI 可见度》分论坛提到的那样:“面对不断演进的数字化需求,英特尔将继续深化与包括百度在内的生态伙伴的合作,以“绿色、低碳”为出发点,将更多优秀的技术和解决方案推向市场,为个人、产业和社会创造更多的便利和价值。”



为此,百度不仅和 Intel 联合打造了百度定制的 Intel CPU,还自研了多类芯片、设计了为 AI 场景优化的服务器,如百度自研的昆仑芯片、太行 DPU 以及超级 AI 计算机 X-MAN 等。与此同时,随着现在 CPU 的处理能力越来越强,各个计算节点之间的数据交换也会变得更加密集,需要有非常好的低延时网络服务来支撑,所以,在软件层面上,百度智能云定义了自己的网络协议栈,建设了超低时延网络。

“从最底层的低碳绿色数据中心,到我们自研的芯片,再到多芯片的适配,最后到上层集群和软件,我们希望能够打造出全国面向 AI 环境最领先的 AI 超算集群。”侯震宇在《AI 可见度》分论坛中总结道。

作为最适合跑 AI 的基础设施,百度智能云提供了丰富的 GPU 容器虚拟化、推理 / 训练加速、数据 / 镜像加速等能力,全面使用这些能力,会让 GPU 利用率达到 80% 甚至更高,作业效率更能够有 3-5 倍的提升。

写在最后


“云服务,原来只是一个简单、算得过账的工具,如今已经演变成一个能给企业提供生命力的新系统,甚至能够成为企业可持续发展的重要组成部分。”侯震宇说道。


可以预见的是,在 AI 技术的强烈冲击下,传统的通用型算力架构已经被时代所抛弃,企业更需要的是面向智能的计算能力,以提供更高效、稳定、高性价比的计算平台。目前,百度智能云已经将 AI 的能力以及软件层面的能力,真正地注入到了云底座,基于百度智能云提供的“云智一体”服务,可以帮助企业在节省芯片、算法等硬性投入的同时,降低对专业人才的依赖。


回归到开篇的提问:企业到底如何才能实现“用好云”的目标,相信可以在百度智能云中找到捷径和答案。


2022-07-21 18:006464

评论

发布
暂无评论
发现更多内容

IT运维的福音!WeOps综合服务让运维更简单

嘉为蓝鲸

运维 IT weops

加速布局,用友为国产化替代保驾护航!

用友BIP

国产替代

万字好文:大报文问题实战 | 京东物流技术团队

京东科技开发者

MySQL 网关 报文 企业号 7 月 PK 榜 大报文

gRPC 接口调试利器,让你成为高效开发者

Apifox

程序员 gRPC RPC 开发 RPC 协议实现原理

亿级日活业务稳如磐石 华为云发布性能测试服务CodeArts PerfTest

华为云PaaS服务小智

云计算 软件开发 性能测试 华为云

这10个强大的CSS属性,每个前端都要懂

伤感汤姆布利柏

tidb之旅——dm工具篇

TiDB 社区干货传送门

迁移 安装 & 部署 6.x 实践

新能力提升全面预算管理效率和效力

用友BIP

全面预算

快速提效,便捷易用 | 嘉为蓝鲸数字化运营中心全方位体验升级

嘉为蓝鲸

运维 IT weops

新兴技术与禅坐 | 聊聊经验 | 社区征文

写程序的小王叔叔

经验分享 年中技术盘点

京东统一头尾管理系统探索实践 | 京东云技术团队

京东科技开发者

管理系统 企业号 7 月 PK 榜 头尾管理

《2022-2023年中国大数据市场研究年度报告》正式发布,腾讯云位列领导者行列

Geek_2d6073

科研类项目核算的“法、术、器”(一)

用友BIP

项目云

数据库运维实操优质文章分享(含Oracle、MySQL等) | 2023年6月刊

墨天轮

MySQL 数据库 oracle postgresql 国产数据库

活动预告|7月29日 Streaming Lakehouse Meetup·北京站

Apache Flink

大数据 flink 实时计算 信息推送

TiKV集群断电(灾难)恢复过程记录

TiDB 社区干货传送门

6.x 实践

tidb之旅——tidb架构选择

TiDB 社区干货传送门

迁移 安装 & 部署 6.x 实践

用友iuap亮相全球数字经济大会助力企业升级数智化底座

用友BIP

数智底座

华为开发者大会:软件开发小白的华为云云上初体验

华为云PaaS服务小智

云计算 软件开发 华为云 华为开发者大会2023

数智化赋能企业,开启全新商业模式

用友BIP

国产替代

简单三步完成离线升级TIDB v7.1(服务器无互联网环境)

TiDB 社区干货传送门

版本升级 7.x 实践

TiDB v7.1.0 资源管控功能是如何降低运维难度和成本-实现集群资源最大化?

TiDB 社区干货传送门

实践案例 版本测评 性能测评 应用适配 7.x 实践

TiDB v7.1.0 跨业务系统多租户解决方案

TiDB 社区干货传送门

实践案例 新版本/特性解读 应用适配 HTAP 场景实践 7.x 实践

业务创新的利器:探索Flutter与小程序容器的融合应用

FinClip

一份保姆级的Stable Diffusion部署教程,开启你的炼丹之路 | 京东云技术团队

京东科技开发者

人工智能 AI绘画 Stable Diffusion 企业号 7 月 PK 榜

# 文盘Rust -- FFI 浅尝

TiDB 社区干货传送门

开发语言

TiDB 7.1.0 LTS 特性解读 | 资源管控 (Resource Control) 应该知道的 6 件事

TiDB 社区干货传送门

版本测评 新版本/特性解读 7.x 实践

飞桨和硬件伙伴们在WAIC 2023!

飞桨PaddlePaddle

人工智能 百度 paddle 飞桨 百度飞桨

阿里云瑶池数据库出席2023可信数据库发展大会,PolarDB荣获多项评测证书

科技热闻

aws上采用tidb和原生使用aws rds价格的比较。兼数据分析性能的测试

TiDB 社区干货传送门

TiDB 底层架构 性能测评 7.x 实践

索引加速功能真能提升10倍吗?--TiDB V6.1.0-V7.1.0建索引速度对比

TiDB 社区干货传送门

版本测评 性能测评 7.x 实践

专访百度副总裁侯震宇:企业如何解决“用好云”的进阶问题?_云原生_郑思宇_InfoQ精选文章