写点什么

首次公开:京东数科强一致、高性能分布式事务中间件 JDTX

  • 2019-10-24
  • 本文字数:5668 字

    阅读完需:约 19 分钟

首次公开:京东数科强一致、高性能分布式事务中间件JDTX

在分布式数据库、云原生数据库、NewSQL 等名词在数据库领域层出不穷的当今,变革——在这个相对稳定的领域已愈加不可避免。相比于完全革新,渐进式增强的方案在拥有厚重沉淀的行业则更受青睐。

同所有分布式领域的解决方案相同,分而治之的透明化数据分片方案,是新一代数据库解决海量数据的核心理念。水平拆分使得分布式事务的重要性,较之垂直拆分的业务系统进一步提升。另外,弹性扩(缩)容、HTAP 等概念也是新一代数据库的关注重点。京东数科开源的Apache ShardingSphere在数据分片方面已逐渐成熟,在此场景之上开发的分布式事务中间件 JDTX 与之共同组成了分布式数据库的内核拼图。

JDTX 是由京东数科的数据研发团队倾力打造的分布式事务中间件。本次分享是 JDTX 首次公开出现在大众视野面前,分享内容涵盖 JDTX 的核心设计理念及相关的技术实现难点,希望能为打造分布式事务解决方案的团队提供一些思路。

背景

数据库事务需要满足 ACID(原子性、一致性、隔离性、持久性)4 个特性。


在单一数据节点中,事务仅限于对单一数据库资源的访问控制,称之为本地事务。几乎所有的成熟的关系型数据库都提供了对本地事务的原生支持。 但是在基于微服务的分布式应用环境下,越来越多的应用场景要求对多个服务的访问及其相对应的多个数据库资源能纳入到同一个事务当中,分布式事务应运而生。


关系型数据库虽然对本地事务提供了完美的 ACID 原生支持。 但在分布式的场景下,它却成为系统性能的桎梏。如何让数据库在分布式场景下满足 ACID 的特性或找寻相应的替代方案,是分布式事务的重点工作。

本地事务

在不开启任何分布式事务管理器的前提下,让每个数据节点各自管理自己的事务。 它们之间没有协调以及通信的能力,也并不互相知晓其他数据节点事务的成功与否。 本地事务在性能方面无任何损耗,但在强一致性以及最终一致性方面则力不从心。

两阶段提交

XA 协议最早的分布式事务模型是由 X/Open 国际联盟提出的 X/Open Distributed Transaction Processing(DTP)模型,简称 XA 协议。


基于 XA 协议实现的分布式事务对业务侵入很小。 它最大的优势就是对使用方透明,用户可以像使用本地事务一样使用基于 XA 协议的分布式事务。 XA 协议能够严格保障事务 ACID 特性。


严格保障事务 ACID 特性是一把双刃剑。 事务执行在过程中需要将所需资源全部锁定,它更加适用于执行时间确定的短事务。 对于长事务来说,整个事务进行期间对数据的独占,将导致对热点数据依赖的业务系统并发性能衰退明显。 因此,在高并发的性能至上场景中,基于 XA 协议两阶段提交类型的分布式事务并不是最佳选择。

柔性事务

如果将实现了 ACID 的事务要素的事务称为刚性事务的话,那么基于 BASE 事务要素的事务则称为柔性事务。 BASE 是基本可用、柔性状态和最终一致性这 3 个要素的缩写。


在 ACID 事务中对一致性和隔离性的要求很高,在事务执行过程中,必须将所有的资源占用。 柔性事务的理念则是通过业务逻辑将互斥锁操作从资源层面上移至业务层面。通过放宽对强一致性和隔离性的要求,只要求当整个事务最终结束的时候,数据是一致的。而在事务执行期间,任何读取操作得到的数据都有可能被改变。这种弱一致性的设计可以用来换取系统吞吐量的提升。Saga 和 TCC 都是典型的柔性事务实现方案。

结论

基于 ACID 的两阶段事务和基于 BASE 的最终一致性事务都不是银弹,可通过下表详细对比它们之间的区别。


两阶段提交柔性事务
业务改造实现相关接口
一致性支持最终一致
隔离性支持业务方保证
并发性能严重衰退略微衰退
适合场景短事务 & 低并发长事务 & 高并发


缺乏并发度保障的两阶段事务不能称之为完善的分布式事务解决方案;而缺乏对 ACID 原义支持的柔性事务都甚至不能称之为数据库事务,它更适合服务层的事务处理。


放眼当前,实难找到无需权衡即可放之四海而皆准的分布式事务解决方案。

JDTX 的分布式事务解决方案

JDTX 的设计目标是强一致(支持 ACID 的事务原义)、高性能(甚至强于本地事务)、1PC(完全摒弃两阶段提交和两阶段锁)的完全分布式事务中间件,目前可用于关系型数据库。它采用完全开放 SPI 的设计方式,提供与 NoSQL 对接的可能,能够将多元异构数据维持在同一事务中。

设计理念

首先通过一张架构图来直观的了解一下 JDTX 的构成。



JDTX 由事务管理器(TM)和资源管理器(RM)组成。


事务管理器用于生成全局单调递增的事务日志序列号(LSN),事务的提交和回滚等核心流程处理,以及未提交事务的本地元祖(Tuple)持有。


资源管理器用于管理活跃事务数据。JDTX 的设计特点是将在事务中的数据(称之为活跃数据)和不在事务中的数据(称之为落盘数据)分离。活跃数据在落盘至预写日志系统(WAL)之后,并将数据保存至自研的多版本快照(MVCC)内存引擎中。落盘数据则是通过异步刷盘的方式,将 MVCC 引擎中的数据以流量可控的方式同步至最终的存储介质中(如:关系型数据库)。


事务内查询会将落盘数据和活跃数据合并,并根据当前事务的隔离级别获取出符合当前事务可见性的数据版本。

方案亮点

无损事务方案

JDTX 采用 WAL + MVCC 引擎的方式实现了事务的 ACID 原义。

原子性 &一致性支持

JDTX 的 MVCC 引擎可以看做是一个集中式缓存,可以将两阶段提交简化至一阶段提交。维持单一节点中数据的原子性和一致性,即将分布式事务的范畴缩减到本地事务的范畴。


MVCC 引擎可以通过分片 + 主从同步的方式维持水平扩展和高可用的能力。JDTX 保证所有对事务数据的访问都通过 MVCC 引擎的活跃数据 + 最终数据端的落盘数据的合并的方式,以保证数据的原子性和一致性。

隔离性支持

JDTX 以多版本快照的方式实现事务隔离性。目前完整的支持 4 种标准隔离级别中的读已提交和可重复读,已经可以满足绝大部分需求。

持久性支持

JDTX 将事务的活跃数据在存入 MVCC 引擎之前先落盘至 WAL 引擎,以保证服务器崩溃,内存数据丢失时,活跃数据依然能够从 WAL 引擎中完全恢复。

高性能

JDTX 采用将活跃数据异步刷盘至数据库的方式极大的提高了数据写入的性能上限。它的性能瓶颈从数据库写入耗时转移到了落盘至 WAL 引擎和存储至 MVCC 引擎的耗时。


与数据库的 WAL 系统类似,JDTX 的 WAL 也采用日志顺序追加的方式,因此可以简单的理解为 JDTX 的 WAL 耗时 = 数据库系统的 WAL 耗时。而 MVCC 缓存则采用哈希数据结构,其写入耗时小于需要维护 BTree 索引的数据库写入耗时。因此,采用 JDTX 的事务方案,其数据更新性能甚至强于不开启事务。


另外,JDTX 采取了无 UNDO 日志的事务回滚策略。未提交的数据并不会进入 MVCC 引擎,而是被事务管理器本地持有。因此,只要清理掉未提交数据即可完成事务回滚。无 UNDO 日志的设计进一步的提升了事务处理的性能。

高可用

WAL 引擎和 MVCC 引擎均采用分片 + 主备的方式,以保证 JDTX 不会产生单点故障。在 MVCC 引擎完全不可用的情况下,可通过恢复模式将 WAL 中的数据同步至数据库,以保证数据的完整性。

跨多元数据库事务

JDTX 将事务活跃数据和落盘数据分离的设计方案,使其落盘数据存储端无任何限制。所有的事务活跃数据都会通过异步的落盘执行器存储至后端数据库,因此后端是否为同构数据库,其实并无影响。


使用 JDTX 能够保证跨多元存储端(如:MySQL、PostgreSQL 甚至是 MongoDB、Redis 等 NoSQL)的分布式事务维持在同一事务语义之中。

实现难点

MVCC 内核

事务隔离级别有两种常见的实现方案,即锁实现和 MVCC 实现。除了 Infomix 等少数数据库,大部分关系型数据库均采用 MVCC 实现。


读未提交、读已提交、可重复读和可序列化这 4 种事务隔离级别的标准,是 ANSI 所定义的基于锁实现的方式。事务的并行度随着隔离级别的增加而衰减,除了并发度最低的可序列化,其他隔离级别都伴随着对一致性的权衡和牺牲。


下表是基于锁实现的隔离级别对照表。


隔离级别脏读不可重复读幻读
读未提交可能可能可能
读已提交不可能可能可能
可重复读不可能不可能可能
可序列化不可能不可能不可能


通过 MVCC 实现的隔离级别实际上只有 SI(快照隔离)和 SSI(可序列化快照隔离)这 2 种。SI 和 SSI 与 ANSI 的 4 种隔离级别并不能完全对照。其中的读未提交,与读已提交在 MVCC 的实现中性能并无差别,可以忽略不计。因此 SI 可以对应为读已提交和可重复读这 2 种隔离级别。实际上,即使是幻读,在 SI 隔离级别中也是不会出现的。


由于快照并发控制并不能真正意义上保证事务是“可串行化”的,所以事务间的并发操作依旧有可能引发数据异常现象。但这里的异常不同于之前提到的脏读、丢失更新的异常,而是一种业务数据间逻辑语义层面的异常,也可以说是由于未能满足数据间的语义约束而产生的异常。这被称之为写偏序(Write skew),它的检测可依据并发事务间读写依赖的多版本可串行化图(The multiversion serialization graph)来实现,即 SSI 隔离级别。


下表是基于 MVCC 实现的隔离级别对照表。


隔离级别脏读不可重复读幻读写偏序
读未提交无需实现无需实现无需实现无需实现
读已提交不可能可能可能可能
可重复读不可能不可能不可能可能
可序列化不可能不可能不可能不可能


自研 MVCC 引擎是 JDTX 的主要难点之一。JDTX 采用与 PostgreSQL 类似的 MVCC 实现方案,通过 xmin 和 xmax 标记事务快照范围,并在 MVCC 引擎中保存每个数据元祖(Tuple)的 xmin 和 xmax 的事务信息。同一数据的多版本以链表的数据结构存储,通过其 xmin 和 xmax 来获取数据的版本在当前事务快照中的可见性。


由于 MySQL 也并未实现 SSI 隔离级别,因此目前的 JDTX 只是实现了 SI 隔离级别,还并未实现 SSI 隔离级别。


MVCC 数据的清理(vacuum)是另一技术难点。过长的事务会导致 MVCC 版本过多,导致占用大量存储空间。尤其是 JDTX 是通过内存来存储 MVCC 的活跃数据,因此对内存空间的释放则更加敏感。由于 JDTX 的异步落盘机制,因此除了 MVCC 标准的垃圾回收逻辑之外,判断数据是否落盘成为清理逻辑的额外规则。

SQL 查询引擎

通过 SQL 查询事务的活跃数据,是 JDTX 的另一个技术实现难点。MVCC 引擎并非关系型数据库,并不能通过识别 SQL 来查询相关数据。JDTX 则通过之前 Apache ShardingSphere 所积累的 SQL 解析模块及其抽象语法树(AST)来实现对 SQL 的理解,以及查询基于内存的 MVCC 引擎中的数据。


对于 SPJ(select-project-join)的 OLTP 类型 SQL,可以从 SQL 的查询结果中获取数据主键。JDTX 将落盘数据从后端数据库中取出作为最终展现数据的基础,并在此之上从 MVCC 引擎中查询出当前事务可见的活跃数据,并对其结果进行归并。换句话说,每次事务内查询都是由落盘数据+活跃数据归并而成。归并引擎部分参照了 LSM Tree 的设计思想。


对于非 SPJ 的 OLAP 类型 SQL,JDTX 则采用另外的查询方式。基于聚合函数和分组的 SQL 无法通过主键直接将后端数据库中的落盘数据和 MVCC 引擎中的键值数据直接匹配,因此采用以 MVCC 引擎中数据为主,并将 SQL 改写为剔除活跃数据主键的新 SQL,再从后端数据库中查询无重复的聚合数据进行归并。

使用限制

分布式无银弹,这是架构师们对现有的分布式系统比较公认的看法。虽然 JDTX 具备了很多优点,但仍然有一些使用限制。它的使用限制主要有以下 3 点。


  1. 需要通过 JDTX 访问数据库。JDTX 通过其 MVCC 引擎控制事务的原子性、一致性和隔离性,并通过 WAL 控制事务的持久性。因此在使用 JDTX 的系统中,跨过事务中间件直接查询数据库,是得不到正确的事务数据的,修改数据库则会导致数据紊乱。

  2. SQL 支持需要持续完善。查询 MVCC 引擎的 SQL 方言兼容则需要持续提升。相对于无损的 ACID 事务原义支持所带来的优势,SQL 兼容度的下降,是 JDTX 带来的权衡。

  3. 不支持无主键数据。JDTX 需要通过主键来合并 MVCC 引擎和数据库中的数据。因此无法处理没有主键的记录。

JDTX 与 Apache ShardingSphere

通过 Apache ShardingSphere 提供的 JDBC 接入端,可以使 JDTX 无缝的对接至 Java 应用。除了 JDBC 接入端,Apache ShardingSphere 也提供了基于 MySQL 和 PostgreSQL 的 Proxy 接入端,使 JDTX 像一个单独的数据库一样提供分布式事务的服务。Apache ShardingSphere 将在未来将接入端剥离,使 JDTX 独立使用成为可能。


Apache ShardingSphere 提供了分布式事务的统一 SPI。JDTX 通过实现 ShardingSphere 提供的 SPI,可以很轻松的融入 Apache ShardingSphere 生态。结合 Apache ShardingSphere 与 JDTX,可以将数据分片与分布式事务无缝结合。


独立使用 Apache ShardingSphere 或 JDTX,可以灵活解耦,高度定制,可以看做是基础组件的乐高积木。而将其联合使用,则能够产生化学变化,甚至使它们具备组成分布式数据库基础设施的能力。架设在产品最前端的 Apache ShardingSphere 用于 SQL 解析、数据库协议和数据分片;位于中层的 JDTX 用于通过键值对和 MVCC 的方式处理事务活跃数据;最底层的数据库则仅作为最终的数据存储端。下图是 ShardingSphere + JDTX 的架构图。



最后附上 MySQL 架构图,请读者自行体会其相似之处。


JDTX 的后续规划

JDTX 的自身目标是力争将其打造成为一个分布式事务的标准解决方案。在事务核心流程、MVCC 引擎、WAL 引擎、高可用等核心功能打磨成熟后,JDTX 会将主要精力投放在以下几个方面:


  1. 提升 SQL 语句兼容性以及多元数据库支持;

  2. 实现 SSI 隔离级别,提供完整的 MVCC 隔离级别解决方案;

  3. 完善管理端和监控端。


除了 JDTX 中间件自身,它也将与 ShardingSphere 等其他数据库中间件更加一体化的提供分布式数据库级别的服务;并将与 Kubernetes 等云原生平台更加深度整合,为云原生数据库提供服务。


作者介绍


张亮,京东数科数据研发负责人,Apache ShardingSphere发起人 & PPMC,JDTX 负责人。


热爱开源,主导开源项目 ShardingSphere(原名 Sharding-JDBC)和 Elastic-Job。擅长以 Java 为主分布式架构,推崇优雅代码,对如何写出具有展现力的代码有较多研究。


目前主要精力投入在将 ShardingSphere 和 JDTX 打造为业界一流的金融级数据解决方案之上。ShardingSphere 已经进入 Apache 孵化器,是京东集团首个进入 Apache 基金会的开源项目,也是 Apache 基金会首个分布式数据库中间件。


GitHub: https://github.com/terrymanu , 随时欢迎技术交流和指正。


2019-10-24 08:0016214

评论 6 条评论

发布
用户头像
能否说明一下1pc提交如何保证分布式事务的一致性,以及没有undo log的情况下如何完成全局回滚
2021-01-28 15:02
回复
用户头像
shardingsphere许久没更新,又来一个新的,国内真爱干这事,都是雷声大雨点小
2019-10-28 18:36
回复
兄弟,这俩是一个大神做的。而且 ShardingSphere 目前是 Apache 跟 CNCF 的孵化项目啊。。。这种规模的开源工具在国内都是顶级水准了,可以先看看介绍再评价的
2019-10-29 16:19
回复
好奇的查了一下的ShardingSphere的更新记录,所谓的许久没更新的数据是:最近7天(11个贡献者推送了16个pull requests;98个文件被修改,1980个增加项,779个删除项;处理了31个issues,新建过16个issues)。最近1个月(29个贡献者推送了90个pull requests;2602个文件被修改,13472个增加项,7599个删除项;处理了134个issues,新建过32个issues)。
2019-10-29 17:47
回复
哈哈哈,楼主这脸被打的啪啪响
2019-11-01 18:49
回复
用户头像
看不懂
2019-10-24 18:27
回复
没有更多了
发现更多内容

【等保测评】黑龙江等保测评机构详细信息说明

行云管家

网络安全 等保 等级保护 等保测评

影像篡改与识别(一):胶片时代

腾讯安全云鼎实验室

影像 暗房技术 篡改识别

简述 Linux I/O 原理及零拷贝(上)— 磁盘 I/O

Qunar技术沙龙

Linux 缓存 Mmap 磁盘 I/O

fil矿机1T一天可以挖多少币?fil矿机能挖多久?

fil矿机能挖多久 fil矿机1T一天可以挖多少

MySQL 不完全入门指南

Java 编程 架构 面试 架构师

软件测试框架之——Postman参数化(超详细小白教程)

程序员阿沐

软件测试 自动化测试 接口测试

简单、快捷、低成本的超写实虚拟人平台来了……

百度开发者中心

人工智能 AI 最佳实践 虚拟人 前沿技术

解密优酷智能生产技术,看 AI 赋能内容数字化

阿里云CloudImagine

音视频 短视频 视频处理 视频制作 视频云

fil挖矿怎么挖?fil挖矿成本是多少?

fil挖矿怎么挖 fil挖矿成本是多少

可视化全埋点系列文章之功能介绍篇

神策技术社区

程序员 代码 埋点 神策数据

DEX去中心化交易所自动刷量机器人开发|去中心化做市机器人

量化系统19942438797

去中心化 做市机器人

入职京东:成功拿到offer薪资30K「面试经历+面试真题」

今晚早点睡

Java 秋招

如何优雅的在业务中使用设计模式(代码如诗)

小呆呆666

flutter android 大前端 设计模式

一文带你掌握 OceanBase 社区版部署细节及原理

OceanBase 数据库

数据库 分布式数据库 oceanbase OceanBase 开源 OceanBase 社区版

译文 | 四张画布教你判断「产品开发优先级」

LigaAI

产品经理 产品开发 画布 产品优先级

webrtc BitrateAllocator 带宽分配器

webrtc developer

WebRTC

微服务的痛:你的微服务还好吗?

我爱娃哈哈😍

架构设计 架构设计实战

吹爆!阿里高工携18位架构师耗时57天整合的1658页面试总结太香了

Java~~~

Java spring 架构 面试 JVM

堡垒机和跳板机的三大区别分析-行云管家

行云管家

运维 堡垒机 IT运维 跳板机

论坛接口测试——Postman数据驱动(超详细小白教程)

程序员阿沐

编程 程序员 软件测试 自动化测试 接口测试

短视频询盘获客系统开发案例解析

获客I3O6O643Z97

抖音、快手获客系统 抖音矩阵拓客

简述 Linux I/O 原理及零拷贝(下) — 网络 I/O

Qunar技术沙龙

Linux TCP I/O DPDK 网络io

Go- 可变参数函数

HelloBug

Go 语言 可变参数函数 空接口

立于山巅!他,凭什么抗住万亿级流量冲击!

博文视点Broadview

文件上传绕过思路拓展

网络安全学海

黑客 网络安全 信息安全 渗透测试 安全漏洞

石油行业数据采集中的 MQTT 协议

EMQ映云科技

数据 mqtt emq 远程监控 实时数据

ipfs矿机公司星际联盟是什么公司?星际联盟ipfs矿机靠谱吗?

分布式存储 IPFS Filecoin ipfs挖矿 ipfs矿机

摩尔时代如何押注AI算力?英特尔战术大揭秘

科技新消息

Apache APISIX 社区周报 | 2021 8.16-8.22

API7.ai 技术团队

Apache 开源 APISIX 社区 社区周报

腾讯WeTest压测大师通过中国计量科学研究院测试认证,获国家级权威认可

WeTest

❤️专科出身拿到阿里offer,我直呼666!【付硬核面试】❤️

编程susu

Java 编程 程序员 面试 计算机

首次公开:京东数科强一致、高性能分布式事务中间件JDTX_数据库_张亮_InfoQ精选文章