写点什么

两年怒省上千万,知乎数据库降本增效实战

  • 2024-03-25
    北京
  • 本文字数:3267 字

    阅读完需:约 11 分钟

两年怒省上千万,知乎数据库降本增效实战

数据库在企业的数据管理和运营中扮演着越来越重要的角色。然而,高昂的数据库成本和低效的运营可能成为企业发展的拦路虎。


将在 2024 年 6 月 14-15 日深圳举办的 ArchSummit 全球架构师峰会上,我们邀请到了知乎数据库架构团队负责人代晓磊老师来分享一些降低数据库成本、提高效率的关键策略,以及知乎团队如何通过优化数据库配置、采用新技术、实施自动化管理等方式来实现降低成本的;同时,他也会介绍如何通过数据分析和性能优化来提高数据库的效率,从而实现降本增效的目标。在正式演讲之前,我们做了简短的采访,请代老师介绍他们的一些技术思路,提前剧透,以飨读者。



InfoQ:在降低数据库成本和提高效率方面,您认为最关键的策略是什么?能否详细介绍一下?


代晓磊: 最关键的策略是通过优化数据库架构和性能来实现成本降低和效率提升。我们重点关注以下几个方面:


(1) 数据库资源的合理利用:优化数据库配置、合理规划硬件资源,确保资源利用率最大化。


(2) 数据库查询和操作的优化:通过索引优化、SQL 调优等手段,提升查询效率,减少资源消耗。


(3) 数据库的自动化管理:利用自动化工具和流程,降低管理成本,提高运维效率。


InfoQ:在知乎数据库降本增效的实战中,都采取了哪些具体的措施和方法?


代晓磊: 在知乎,我们不仅仅采取了诸如合理的分布式数据库选型、基于 FinOps 合理规划硬件资源、服务器机型替换、对象存储优化等传统措施。此外,我们还引入了天穹自动化运维平台,该平台能够实现业务数据库变更的自助管理,同时也让 DBA 对数据库的管理实现了自动化,从而大大提高了数据库管理的效率和稳定性。通过这些创新措施的结合应用,我们在实践中不断探索和推进数据库降本增效的路径,为知乎的数据管理提供了更加全面和可靠的解决方案。


InfoQ:您如何看待数据库降本增效中的 FinOps 在实际应用中的作用?它对降低成本和提高效率有何影响?


代晓磊:FinOps 在数据库降本增效中扮演着不可或缺的角色。通过成本可见性、成本优化、预算管理、自动化和持续改进等手段,帮助组织更好地降低数据库成本,提高资源利用率,实现数据库管理的成本效益最大化。


首先,FinOps 提供了成本可见性。通过实时监控和分析数据库资源的使用情况,组织能够清晰地了解数据库成本的构成和分布情况。这使得组织能够更好地识别成本的主要来源,进而采取相应措施降低成本。


其次,FinOps 强调成本优化。基于成本可见性,FinOps 提供了优化数据库资源使用的方法和工具。通过合理规划数据库资源的使用,选择适当的规格和类型,以及优化数据库配置和性能,可以降低成本并提高资源利用率。


第三,FinOps 推动预算管理。通过制定和管理预算,组织能够更有效地控制数据库成本。合理规划预算和资源分配,确保在满足业务需求的前提下最大程度地降低成本。


此外,FinOps 倡导流程自动化和成本优化。通过自动化工具和流程,实现数据库资源的智能分配和管理,提高运营效率,并减少人工成本。持续改进也是 FinOps 的核心理念之一,通过不断优化数据库资源的使用和管理,实现成本的持续降低和效率的持续提高。


InfoQ:平台化在数据库降本增效中扮演着怎样的角色?您能分享一些在实践中取得成功的平台化案例吗?


代晓磊: 平台化在数据库降本增效中扮演关键角色,通过标准化、自动化数据库管理流程,提高效率、降低人工成本;同时提供统一监控和管理,优化资源利用率,增强系统稳定性,推动数据库成本降低与效率提升。


例如,我们建立了一站式数据库自动化管理平台:天穹平台,为各业务团队提供统一的数据库服务和管理接口,实现了数据库资源的最大化利用和管理的便捷化。


InfoQ:您认为数据库降本增效的 5 个要素中,哪些是最具挑战性的?为什么?


代晓磊: 数据库降本增效的五个要素中,最具挑战性的要素分别是性能优化和数据库容器化。


  1. 性能优化:性能优化涉及诸多方面,包括查询优化、索引设计、存储引擎选择等,需要综合考虑数据库结构、数据量、业务需求等因素。挑战在于识别性能瓶颈、设计有效的优化策略,需要深入理解数据库的工作原理和业务特性,以及不断的性能测试和调优。

  2. 数据库容器化:数据库容器化涉及到将传统的数据库系统迁移到 Kuberenets 环境中,需要解决诸如数据持久化、性能稳定性、安全性等问题。数据库在容器环境中的部署和管理相对复杂,需要考虑容器间的网络通信、资源隔离等方面,同时确保数据的一致性和可靠性,这是一个技术挑战和组织变革的过程。


因此,性能优化和数据库容器化是数据库降本增效中最具挑战性的要素,需要综合考虑技术、业务和组织等多方面因素,采取有效的策略和方法应对挑战,才能实现数据库管理的成本效益最大化。


InfoQ:在实施数据库降本增效策略时,您遇到过哪些主要的挑战?又是如何应对的?


代晓磊: 在实施数据库降本增效策略时,我们遇到了一些主要的挑战,其中包括分布式数据库选型、与业务团队沟通成本、以及迁移切换对数据库稳定性的影响 等方面。


  1. 分布式数据库选型是一个复杂的决策过程,需要考虑多个因素,如性能、可靠性、成本等。我们需要对不同的分布式数据库进行评估和比较,以选择最适合我们业务需求的解决方案。这涉及到技术评估、性能测试等工作,需要投入大量时间和精力。

  2. 与业务团队沟通成本也是一个挑战。数据库成本不仅仅包括硬件和软件成本,还包括人力资源和时间成本。因此,我们需要与业务团队充分沟通,让他们理解数据库降本增效策略的重要性,并愿意为其投入资源和支持。

  3. 迁移切换带来的数据库稳定性问题也是一个挑战。数据库迁移往往伴随着数据转移切换、架构调整等操作,容易引起系统故障,可能会影响 SLA 保障。为了应对这一挑战,我们采取了谨慎的迁移计划和准备工作,提前进行充分的测试和验证,确保迁移过程的顺利进行,并及时处理可能出现的问题。


InfoQ:在降低数据库成本方面,你们应用了哪些新技术?分别起到了怎样的作用?能否分享一些成功案例?


代晓磊: 在降低数据库成本方面,我们采用了数据库容器化部署、AIOps(人工智能运维)、以及运维平台化等新技术。


  1. 数据库容器化部署:通过将数据库容器化部署,实现了快速部署、弹性伸缩和资源隔离,提高了资源利用率和灵活性,同时减少了硬件成本和人力成本,加速了开发和测试过程。比如我们的 TiDB 以及 Redis 都是跑在 Kuberenetes 集群中,基于 operator 自动管控。

  2. AIOps:引入 AIOps 技术,通过机器学习和数据分析,实现了自动化故障检测、预测性维护和智能优化,提高了系统的稳定性和性能,减少了故障处理时间,降低了人力成本。比如我们通过 ELK 收集各个数据库的日志和性能指标、机器的资源指标等来辅助管理 DB。

  3. 运维平台化:建立了天穹平台,集中管理和监控数据库资源,提供统一的管理界面和自动化运维工具,减少了人工操作和管理成本,同时提高了运维效率和数据库服务的可靠性。


InfoQ:您如何评估知乎数据库降本增效实战所取得的收益效果?是否能提供一些具体的案例展示?


代晓磊: 我们通过监控数据库成本、资源利用率、性能指标等多方面的数据来评估降本增效实战的收益效果。我们实现了数据库成本的降低、资源利用率的提高、性能指标的改善等目标,并取得了显著的效益。例如,数据库的成本 2 年 + 为公司节省千万,天穹平台的推出成功提升了业务的 oncall 效率,DBA 的运维从黑屏到白屏平台的工单审批操作,降低了数据库运维安全风险,提升了运维效率,保障了数据库的性能和稳定性,为业务的发展提供了可靠的基础服务支撑。


InfoQ:对于那些正在寻求降本增效的企业或团队,您有什么建议或经验分享?


代晓磊: 我建议他们首先充分了解自身业务需求和数据库现状,加强数据库资源梳理和管控,明确降本增效的目标和重点。其次,要往“外”看,多多了解其他社区或者大厂都在使用什么数据库,如何使用的,不断学习和探索新的技术和降本增效的方案。最后,要注重实践和持续改进,不断优化数据库架构和运维流程,持续提升降本增效的能力。


本届 ArchSummit 会议上,我们邀请了 CNCF、顺丰集团、腾讯、百度等企业的专家来演讲。会议上还设置了大模型、架构升级等专题,如果你感兴趣来会议上演讲,欢迎点击进入 ArchSummit 会议官网,提交议题。

2024-03-25 18:423943
用户头像

发布了 181 篇内容, 共 98.6 次阅读, 收获喜欢 207 次。

关注

评论

发布
暂无评论
发现更多内容

我的第一个 Flutter 应用之旅

岛上码农

flutter ios 安卓 移动端开发 3月月更

Go学习笔记——复合数据结构之结构体

为自己带盐

Go 学习笔记 3月月更

重磅硬核 | 一文聊透对象在JVM中的内存布局,以及内存对齐和压缩指针的原理及应用

bin的技术小屋

JVM 内存 Java虚拟机 false sharing java

适合新手代码审计之熊海cms

H

网络安全 代码审计

基于STM32设计的森林火灾预警系统

DS小龙哥

物联网 3月月更

Studio One 5新版本安装包图文教程

茶色酒

Studio One 5 fl水果20.9

Lyft微服务研发效能提升实践 | 4. 基于自动验收测试的部署门禁

俞凡

研发效能 大厂实践 lyft 3月月更

HTTP的成长

Tristan

前端 浏览器 网络 HTTP

俄罗斯能通过加密货币规避制裁吗?

CECBC

微博评论高性能高可用计算架构

唐尤华

架构实战营

Powershell基础之脚本执行

喀拉峻

网络安全 安全 渗透测试

千万级学生管理系统的考试试卷存储方案

AragornYang

架构训练营 架构实战营

java如何对接企业微信

经典鸡翅

3月月更

深入理解HTML表格秘籍

喀拉峻

C语言中如何输出汉字;如何用C语言汉字编码输出汉字(超全版)

北极的大企鹅

c 问题处理

面向企业级前端应用的开发框架 UI5 的发展简史介绍

汪子熙

JavaScript 前端开发 前端框架 企业级应用 3月月更

赋能区域产业,南京、成都双城AI开发者Meetup报名开启

百度大脑

区块链的过去与未来

CECBC

web安全之挖掘Linux内核漏洞

网络安全学海

Linux 网络安全 渗透测试 WEB安全 漏洞挖掘

【C语言】轻松解决Bug

謓泽

C语言 bug 3月月更

千万级学生管理系统的考试试卷存储方案

「架构实战营」

c语言怎么避免打印空数据?

北极的大企鹅

c 问题处理

最好用的 6 款 Vue 拖拽组件库推荐 - 卡拉云

蒋川

Vue Vue3 vue cli

两会声音|建议完善数字人民币体系 完善数字货币立法

CECBC

c语言结构体中的一个char数组怎么赋值?

北极的大企鹅

c 问题处理

安全无小事,教你解决密码泄露问题!

老陈

工具 安全 密码泄露

区块链共识,机器说了算还是人说了算?

Akumas

区块链 数字化转型 共识机制 十四五规划

自己动手写Docker系列 -- 3.1构造实现run命令版本的容器

Go Docker

当听障人士实现手语自由:手语AI平台的产业狂想

脑极体

蚂蚁金服-财富编码军规

Beaver

编码规范 编码军规 蚂蚁金服-财富编码军规

系统学习 TypeScript(六)——认识接口

编程三昧

typescript 前端 3月月更

两年怒省上千万,知乎数据库降本增效实战_技术选型_Xue Liang_InfoQ精选文章