1引言

在2019年2月21号发布的《DATABUS-数据孤岛解决方案》（点击跳转）文章中，就有提到TiSpark。在Databus项目中，为了打通散落在公司内部的业务数据，解决数据孤岛，一个重要的功能是将指定数据库表快速准确导入目的地数据源中。目前Databus支持以T+1方式,天级别、小时级别配置全量，增量任务，从指定数据源导入目的地数据源中。其中在将业务数据导入到数据仓库的过程中，TiSpark起到了重要的作用。

2介绍

首先什么是TiSpark?在介绍Tispark之前需要简单介绍下TiDB的整体架构，因为TiSpark是基于TIDB与TIKV的。TiDB是一款定位于在线事务处理/在线分析处理（HTAP）的融合型数据库产品，具有易水平伸缩，强一致性的多副本数据安全，分布式事务，实时OLAP等重要特性。TIDB的整体架构如下所示。

2.1 TiDB Server

Tispark深度整合了Spark Catalys引擎。它可以对计算的精确控制，可以高效的从TIKV读取数据.它还支持索引查找，这样大大提高了查询的性能。它通过计算下推策略将一部分计算任务移交给TIKV，减少Spark SQL需要处理的数据量,这样加快了查询的效率。它还使用TiDB内置的统计信息来优化查询计划。

2.2 Placement Driver

Placement Driver(简称 PD)是整个集群的管理模块，其主要工作有三个:一是存储集群的元信息(某个Key存储在哪个TiKV节点);二是对TiKV集群进行调度和负载均衡(如数据的迁移、Raft group leader的迁移等);三是分配全局唯一且递增的事务ID。

2.3 TiKV Serve

TiKV Server负责存储数据，从外部看TiKV是一个分布式的提供事务的 Key-Value存储引擎。存储数据的基本单位是Region,每个Region负责存储一个Key Range(从StartKey到EndKey的左闭右开区间)的数据，每个 TiKV节点会负责多个Region。TiKV使用Raft协议做复制，保持数据的一致性和容灾。副本以Region为单位进行管理，不同节点上的多个Region构成一个Raft Group，互为副本。数据在多个TiKV之间的负载均衡由PD调度，这里也是以Region为单位进行调度。

2.4 TiSpark

TiSpark是为了在TiDB/TiKV上运行Spark程序而产生的，可以用于一些复杂的OLAP查询。TiSpark是PingCAP为解决用户复杂OLAP需求而推出的产品。它借助Spark平台，同时融合TiKV分布式集群的优势，和TiDB一起为用户一站式解决HTAP(Hybrid Transactional/Analytical Processing)需求。

TiSpark整体架构

TiSpark深度整合了Spark Catalys引擎。它可以对计算的精确控制，可以高效的从TIKV读取数据。它还支持索引查找，这样大大提高了查询的性能。

它通过计算下推策略将一部分计算任务移交给TIKV，减少Spark SQL需要处理的数据量，这样加快了查询的效率。它还使用TiDB内置的统计信息来优化查询计划。

从数据集成的角度来看，TiSpark+TiDB提供了一站式的解决方案，可以在同一个平台上直接运行事务和分析，而无需构建和维护任何ETL，这样简化了系统架构，降低了维护成本。

此外，还可以利用Spark生态系统中的工具来对TiDB进行进一步的数据处理和分析。例如，使用TiSpark进行数据分析和ETL;从TiKV中检索数据作为机器学习数据源;从调度系统生成报告等等。

3实践

Databus对于TIDB的使用如下图所示。TiSpark主要用来将业务数据以T+1的方式同步到Hive数据仓库。

运行环境：Jdk1.8、Spark2.3.2、Spark部署模式Yarn

TiSaprk部署采用外接jar包的方式，因此在已有的Spark集群部署TiSpark的方式很简单，只需将Tispark的jar包放到spark的jars路径，并修改spark-defaults.conf配置文件即可。

3.1 关键配置

spark.sql.extensions   org.apache.spark.sql.TiExtensions
spark.tispark.pd.addresses  127.0.0.1:2379
spark.tispark.db_prefix  tidb_ 
spark.tispark.request.command.priority  Normal

spark.sql.extensions org.apache.spark.sql.TiExtensions该配置必须存在表示Spark引入Tispark扩展。

spark.tispark.pd.addresses，该配置为Placement Driver集群的地址，Spark driver会与Placement Driver进行通信，获得要查询的数据的在对应TIKV结点的具体地址。

spark.tispark.db_prefix，该配置可以在TiDB中所有数据库上加上额外数据库前缀，如databus数据库在利用TiSpark查询时应该查询的数据库名为tidb_databus，这样可以简单区分源数据库来自TIDB。

spark.tispark.request.command.priority Tispark查询的优先级，可选为"Low", “Normal”, “High"通过设置优先级可以影响Tispark获取的TIKV资源，默认的优先级级别为"Low”，这样是为了避免Tispark影响OLTP的工作负担，在Databus项目中，目前TIDB的OLTP的查询量较少，而TiSpark在每天凌晨有大量的数据同步任务，因此将优先级设为"Normal"。

3.2 数据同步效率提升

在引入Tispark之后数据同步的效率大大提升，将TiSpark分别与Spark sql、Sqoop进行对比，选取多个数据量不同的表来进行测试，分别用Tispark、Spark sql、Sqoop将数据同步到hive中，实验效果如下图所示。

由实验可得TiSaprk数据同步效率有显著的优势，平均单位数据量Tispark同步速率是Spark Sql的四分倍左右，为Sqoop15倍左右。

3.3 优化数据同步流程

在Spark sql同步数据时存在着一些问题，例如对于个别数据量比较大的业务数据表，有着主键非递增不连续、分布不均匀的情况。为了提高spark sql的数据同步性能，执行任务之前会指定partitionColumn(通常为业务表的主键或者其他数值类型的字段)、lowerBound、upperBound。那么分布不均匀的主键会导致spark不同partition的数据量差距很大，对于数据量大的partition则可能会出现OOM的情况。

除此之外，spark sql在执行任务之前需要指定spark.executor.memory的大小，目前只能根据业务数据库元数据存储的数据量大小，并考虑到将数据读到Java内存中会有一定的增大来进行预估，来调整spark任务需要的资源，这样存在着资源浪费的情况。

而引入Tispark之后可以很好的解决这些之前存在的问题。当数据量较大时，存储在TIKV的数据会被分成多个Region，切分的方式是按照key range进行排序并划分，每一个key range对应一个Region。相邻的两个Regiona不会出现空洞，前面一个Region的start key是下一个Region的end key。Region会有一定的大小限制，当超过阀值后，一个大的Region会分裂成小的Region，相反，数据量很小的两个相邻Region也会合并生成一个大的Region。

TIKV查询数据时，首先会跟PD进行通信，从PD的Region路由表获Region的具体信息，比如Region有多少副本，leader副本存储在哪个TIKV结点上。Tispark可以根据不同的TIKV结点切分多个Spark partition并行读取，Spark分区数据量比较均匀。

3.4 提高数据同步稳定性

利用TIDB的周边工具Syncer利用主从同步可以将mysql数据实时、增量同步到TIDB中，TiSpark则可以直接从TIKV读取数据。

众所周知，无论是Spark sql还是Sqoop来同步数据都需要通过大量的JDBC连接mysql从库，对业务数据库会造成一定的压力，若从库不可用则同步数据任务将会失败。

在TIDB架构中数据在TIKV中以Region为单位，被分散在集群中所有的节点上，并且尽量保证每个节点上服务的Region数量差不多，并且以Region为单位做Raft的复制和成员管理，这样一方面实现了存储容量的水平扩展（增加新的节点后，会自动将其他节点上的Region调度过来），另一方面也实现了负载均衡（不会出现某个节点有很多数据，其他节点上没什么数据的情况）。

除此之外的好处是具有一定的容灾能力，一个节点挂掉之后，数据在其他节点依旧存在，可以继续提供服务。

4总结与展望

在Databus项目中，TiDB与TiSpark起到了至关重要的作用，目前Tispark主要用来定时的同步数据，在Databus的未来规划中，会利用Tispark提供一定的数据分析功能，这样的一个好处是不需要再把数据同步到数据分析平台，不需要ETL过程，上游业务OLTP的数据通过TiDB实时写入，并且可以利用TiSpark的OLAP能力实时分析，可以实时的查询最新的业务数据，满足一部分用户查询需求。

作者介绍：
沸羊羊(企业代号名)，目前负责实时数据流平台以及大数据工具链组件研发相关工作。

本文转载自公众号贝壳产品技术（ID：gh_9afeb423f390）。

原文链接：

https://mp.weixin.qq.com/s/RYZEMH3SKCyP_CqgbSVq9w

创作场景

TiSpark 在 DATABUS 中的应用