抖音技术能力大揭密!钜惠大礼、深度体验,尽在火山引擎增长沙龙,就等你来! 立即报名>> 了解详情
写点什么

58 集团的 TiDB 技术实践及经验总结

2019 年 11 月 29 日

58 集团的 TiDB 技术实践及经验总结

大家好,我是来自 58 集团的 DBA 旋凯,今天给大家带来的分享题目是 “58 集团数据库技术选型思路”。


首先,我给大家介绍一下我们集团的业务概况。我们的业务范围包含 58 同城、赶集、安居客、58 金融、中华英才、驾校一点通等公司。我们使用的数据库有 MySQL、Redis、MongoDB、ES、TiDB 等,大概每天的访问情况在 8000 亿次左右,集群数量 4000+,物理服务器数量 1500+。



TiDB 在 58 集团的使用情况

我们现在线上生产环境一共有 11 套 TiDB 集群,版本为 3.0.3,物理机数量 80 台,数据总量 40T,每天的访问量在 10 亿次左右。我们一共有 2300 套 MySQL 集群,11 套 TiDB 集群,比例大概为 0.47%,访问量比例为 2%。


从响应时间来,TiDB 是分布式数据库,响应时间与单机的 MySQL 相比较高。之前我们做过的测试显示 TiDB 与 MySQL 响应耗时比在 1.2 到 1.5 左右,可以接受,所以正在将 MySQL 逐步替换为 TiDB 。


TiDB 在 58 集团的使用场景为交易账户流水(也是现在最大的一个库)、金融数仓、私有云监控、用户行为日志、语音机器人、客服系统、广告投放系统、交友系统、帖子信息等。




TiDB 的选型过程

我们从 2018 年的 Q1 开始调研 TiDB 2.0,当时我们遇到的问题场景是私有云监控的数据存储在 MySQL,由于数据量巨大需要定期清理表,给 DBA 带来了很大的工作量。


我们知道 TiDB 后开始调研,最终在 2018 年 4 月上线了第一个 TiDB,迁移了公司内部系统的一个监控日志。第一套量非常小,访问量大概每秒 2000 左右,整体数据量在 7T~8T 之间。2018 年 12 月,我们开始测试 2.1 GA 版本,这个时候线上已经有大概 4 套集群,存储了内部私有云的全部日志系统。到了 2019 年 9 月,我们线上和测试环境已经全部接入 TiDB 3.0.2。



我们使用 TiDB 主要解决了几个 MySQL 遇到问题:


  • MySQL 单机容量有限,例如存储日志类数据需要定时清理的问题;

  • 分库分表问题,58 集团没有中间件团队,开发侧需要自己运维分表场景,同时,分库分表后对于后期的数据聚合及 ETL 来说工作量也非常大;

  • MySQL 自身高可用的问题(8.0 之后的 MGR 还可以),之前我们使用了 MHA, 但是增加了维护成本;

  • MySQL 的从库延迟问题,之前我们进行 DDL 时会造成从库的延迟,这会对实时读造成很大的影响;

  • 单机写入量过大 MySQL 承受不了的问题,58 集团的一个规矩是当单点写入达到 15,000 的时候,我们就会进行拆库,而 TiDB 可以进行多点写入。



这就引申出了我们选择数据库的一些思考维度:


  • 社区活跃度,如果社区不活跃,遇到问题或 bug 无法得到解决,就会被 PASS;

  • 方便运维,TiDB 自身的运维体系,包括高可用、一致性、监控等维度都非常好,我们可以很快地把它接入到内部的运维平台上;

  • 能不能解决现有问题,例如我们遇到了大量的分库分表,大量的数据删除和写入等问题,超出了现有数据库的承受范围。


于是我们选择了 NewSQL 数据库的代表 TiDB 来解决这些问题。



前面我们提到使用 MySQL 时我们遇到的一些问题,那么 TiDB 是怎么解决的呢?


  • 首先 TiDB 是分布式存储,可以水平扩展,解决了我们单机容量小的问题;

  • 其次 TiDB 具备的高可用特性解决了我们额外准备高可用服务带来的运维成本问题;

  • 再次 TiDB 支持多点数据写入,解决了我们单机写入量在 15,000 左右就会出现瓶颈的问题;

  • 最后 TiDB 提供了分库分表的聚合方案,它的监控体系也比较完善,不需要额外搭建监控体系。



TiDB 在 58 集团的使用架构

我们的 TiDB 架构比较简单,应用上首先是分读写域名,后端使用 Load Balance 。默认情况下我们一套集群上有 4 个 TiDB 节点,一个写三个读,如果写达到瓶颈的话,可以扩容 TiDB 节点。



58 集团的 TiDB 体系建设

首先,我们建设了一个工单系统,开发人员要通过私有云平台去进行数据库的日常操作,比如 DDL、DML 等,不能直接连数据库。


第二,我们做了一套监控系统,把 TiDB 的监控数据从 Prometheus 同步到我们的 Zabbix 上,然后在私有云平台上根据我们的数据模型进行展示。


第三,我们做了一个自助查询系统可以快速生成 SQL,而 SQL 可以直接进行数据导出,提高了 RD 使用平台的效率。


第四,我们做了一个报表系统便于管理集群,通过抓取 Prometheus 里的数据在运维平台上进行报表展示,每天的值班 DBA 通过报表可以掌握各集群的状态:是否有报错、容量是否充足、是否需要扩容等。


第五,我们做了一个日常巡检系统,会每天早晨九点和晚上六点对 TiDB 集群进行巡检。目前巡检项目比较简单,大概就十几项,能够帮我们及时发现一些隐患,比如某个时间点慢日志突然爆增,某个表上的索引缺失,或是错误日志里出现异常等。


第六,近期我们做了运维工具和备份系统,使得数据库能够满足审计的需要。



TiDB 工单系统介绍

我们的 TiDB 工单系统支持建表工单、改表工单、数据导出、数据变更、帐号授权等工单,能够满足大部分 RD 的日常需求。后端走的是 Inception 校验,再提交到 TiDB 去执行,和 MySQL 的路径一样。但我们在 Inception 那里和 MySQL 的规则做了一些区分,比如说目前 TiDB 不支持自增主键,但 MySQL 要求必须有自增主键。



监控系统

首先 Collector 会从云 DB 平台上拉取 TiDB 的硬件信息,再同步更新到 Ansible 的配置文件里比较一致性,如果不一致就进行更新。Collector 会到 Prometheus 上拉取监控数据,再把数据通过 Zabbix_sender 发送到 Zabbix 上,如果发现异常 Zabbix 后端会把告警发到微信、短信、邮件、IM 中。



TiDB 运维

运维工具这一块我们做了这么几项:我们有集群拓扑的查询工具、集群的状态检查、慢日志分析、TiDB 监控、检查、自动部署、会话管理这些工具。



58 集团使用 TiDB 的经验


最开始我们使用 TiDB 时,因为机器上有四块磁盘,于是我们在一台机器上布了 4 个 TiKV,但造成了宕机时间特别长的问题,最长的一次是一台 TiKV 机器宕机之后大概两个半小时没起来,解决方法就是打 label。打完 label,用了 3.0.1 后发现宕机时间还是比较长,于是我们寻求了 TiDB 官方人员的帮助,升级到 3.0.2 后宕机时间缩短到了一分钟左右。


第二是 SQL 语法报错,给大家举个例子,3.0.1 时 left join 超过 4 个时可能就会报语法错误,select for update 的执行也有问题,目前在新的新版本都已经解决掉了。


第三是我们之前选机器的时候,是根据磁盘去部署 TiKV 的,后来发现 CPU 资源不够用了,TiKV 越升级 CPU 使用越多。我们跟官方人员沟通后换了一个新的机型,增加了 CPU 的核数,然后减少了 TiKV 的数量。于是我们得出了一个结论:用最好的机器,用最新的版本,遇到问题都会解决的。




后续规划


这部分主要分为四个方向。


首先我们会对监控模型进行优化,现在只是简单地从 Prometheus 里拉取数据然后放到 Zabbix 去做报警,平台再根据 Zabbix 数据进行聚合和展示,不如 MySQL 的监控那么完善。


其次,我们会把 TiDB 和 TiKV 的自动扩缩容放到我们的运维平台上去做。


接下来我们会搭建一个慢日志系统。目前 MySQL 有慢日志系统,包括每日的报表和一个类似实时流水的日志,但是 TiDB 的日志格式和 MySQL 不太一样,目前我们就只能实时去文件系统里读,后续我们会单独做一套 TiDB 的慢日志系统。


最后是一个实时的数据恢复,因为现在 TiDB 官方还没有比较理想的备份系统,我们只是简单用 Mydumper 去进行备份,之后我们也会用 Binlog 做实时备份,并且对两块的数据进行连动。



Q&A

Q1:你好,我想问一下,58 集团的 TiDB 备份恢复系统是怎么实现的?是物理备份,还是逻辑备份,备份以后,这些文件有没有什么压缩之类的这样的优化?


A:是这样的,官方的物理备份还没有出,我们只是用 Mydumper 进行简单的逻辑备份。如果库比较小,我们会整个备份,如果比较大,我们会排优先级,会优先对一些重要的表进行单表的 Mydumper 备份,是逻辑备份,备份之后我们会放到专有的存储机上。Binlog 也会实时备份到存储机上,我们可以手动去找 Binlog 文件和备份文件,如果有需要可以进行相应恢复。


Q2:我想问一下,当前 58 集团的 TiDB 机器选型,大概用的是什么样的机器?


A:我们最开始引入 TiDB 的时候没有把它当做一个核心的数据库,所以我们采用了 DBA 这边的低配机器,当时是 32 核的 CPU,型号是 E5 的 2630,主频 2.1 的,磁盘是 1.7T 的一个 PCIE 板卡,但是这个卡比较老了,是英特尔的 4530。上了 2.1 之后,我们发现 CPU 不够用了,当时看了下,业务也没有那么大量,我们就忍了。后续到了 3.0 之后,CPU 的核数需求上升了,然后我们就开始换机器选型,现在采用了和 MySQL 一样的配置机器,单台核数没变,还是 32 核,CPU 主频提到 2.4,磁盘是单盘 1.7T 的,内存都是 128 的。今年第三季度采购了一批新机器,内存是 256 的,CPU 的主频降到 2.1,核数是 48 核。


Q3:现在在一台物理机上起多少个实例呢?


A:现在使用 3.0 版本的机器是一个机器上使用一个 TiKV。我们后续的一个机型是 48 核的机器,内存增加,磁盘是三块 SSD。


Q4:请问一下,你刚才提到有一个 select for update,这种悲观锁的这种场景,之前 TiDB 并不支持,我想请问一下你们这边怎么解决的呢?


A:这个悲观锁我们用的也是比较少的。之前我们金融数仓的同事反馈说它的执行和预期不符,但是 DBA 是没有办法去修复这个问题的,所以我们暂时让他用乐观锁,我看官方的版本 3.0.3 里面也解决了这个问题,但后续还需要测试。


作者介绍


旋凯:58 集团 DBA,TiDB User Group (TUG) 大使。


本文转载自 AskTUG


原文链接


https://asktug.com/t/topic/1784


2019 年 11 月 29 日 08:001721

评论 2 条评论

发布
用户头像
为何还要在域名上分离读写,MySQL 读写分离,是因为主节点只能有一个,但 TiDB 计算和存储节点都可扩容
2019 年 12 月 03 日 09:33
回复
用户头像
TidDB是收钱的!
2019 年 11 月 29 日 11:34
回复
没有更多了
发现更多内容

还在划水?这个SQL你能写出来吗?

书旅

php MySQL SQL语法 sql查询

关于计划的思考

zhongzhq

Python中的@staticmethod和@classmethod的区别

BigYoung

Python classmethod staticmethod

一些思考

张健

开发者必备——IDEA配置清单

Noneplus

配置 IDEA

Rust是如何保障内存安全的

博文视点Broadview

读书笔记 rust

一文看懂 OAuth2

pingan8787

Java 前端 Web oauth2.0

信创舆情一线--《关键信息基础设施安全保护条例》纳入2020年立法计划

统小信uos

信息安全

Linux 进程必知必会

cxuan

Linux 操作系统

带你解析MySQL binlog

Simon

MySQL Binlog

JVM中栈的frames详解

程序那些事

JVM 堆栈 性能调优 JIT GC

Node.js与二进制数据流

自然醒

Java node.js 前端 二进制

漫画 | 架构设计中的那些事

码农神说

架构设计 架构师 漫画编程

30 张图带你分分钟看懂进程和线程基础知识全家桶

爱嘤嘤嘤斯坦

Java 线程 进程 进程线程区别

不是完成你学习的 KPI ,而是要形成指导你行动的 OKR

非著名程序员

学习 程序员 提升认知 知识管理 程序员成长

Python类中的__new__和__init__的区别

BigYoung

Python __init__ __new__

猿灯塔:spring Boot Starter开发及源码刨析(二)

猿灯塔

Java 猿灯塔 源码刨析

聊聊Spring的IOC以及JVM的类加载

小隐乐乐

浅析 VO、DTO、DO、PO 的概念、区别和用处!

Java小咖秀

学习 设计模式 模型 经验分享

​区块链技术的重要性

CECBC区块链专委会

Redis进阶篇三——主从复制

多选参数

redis redis高可用 redis6.0.0 Redis项目

kubernetes集群安装(二进制)

小小文

Kubernetes 容器 容器技术

工厂方法模式

Leetao

Python 设计模式 工厂方法模式

字节跳动面试经验分享,已拿 Offer!

伍陆柒

Java 面试 大厂

重学 Java 设计模式:实战访问者模式「模拟家长与校长,对学生和老师的不同视角信息的访问场景」

小傅哥

设计模式 小傅哥 重构 代码优化 访问者模式

推荐一款Python开源库,技术人必备的造数据神器!

狂师

Python 开源 自动化 开发工具 开发数据

Tomcat8.5源码构建

知春秋

tomcat tomcat构建 tomcat源码解读 tomcat剖析

SpringBoot入门:00 - 初始化项目

封不羁

Spring Boot java 14

mac vmware centos7 设置静态IP

愤毛阿青

network vmware Centos 7

图片处理不用愁,给你十个小帮手

阿宝哥

Java 前端 工具 开源项目 图片

性能碾压 POI !利用模板语法快速生成 Excel 报表

Geek_Willie

表格控件 GCExcel 服务器端开发

Study Go: From Zero to Hero

Study Go: From Zero to Hero

58 集团的 TiDB 技术实践及经验总结-InfoQ