随着公司业务规模的不断增加，hadoop集群接入的数据量不断增加。对集群的计算资源和存储资源都提出了更大的需求。相比之下，对存储资源的需求更加迫切。对集群数据进行合理的操作，能够节省集群的存储资源，提高存储资源利用率。

技术背景

Hadoop是当前广泛采用的大数据处理平台，其对数据采用三备份方案，如下图所示：

这种三备份机制极大的提高了存储数据的冗余性，保障集群数据的安全。但是三备份措施也极大的提高了存储成本。以当前集群看，需要存储数据约3.2PB，三备份后，至少需要10PB的存储空间。目前集群提供的总空间约7PB，不能满足业务的存储需求。

目前提升集群存储能力可以从下述两个方面入手：

（1）集群数据治理

HDFS作为数据存储平台，存放所有业务数据。使用比较频繁的业务数据，大都在3个月之内，是热数据；3月以外的数据使用较少，为冷数据。对冷数据进行压缩、周期删除管理、迁移到廉价存储等是节省集群存储资源的有效手段。

（2）Hadoop三备份策略优化

Hadoop的三备份机制保障了数据的安全性，但是也带来了存储成本的增加。尤其对冷数据的三备份，造成了存储资源的浪费。在hadoop3.0版本中，引入了EC码的机制，利用纠删码的特性改造了三备份机制。使用1.5备份实现了三备份的功能，同样能够保障数据安全性。这会极大减少集群存储资源的使用。

当前Hadoop3.0仍然没有发布release版本，且版本升级对集群的影响比较大。因此更为现实的方案是采用数据治理。综合集群的情现实况，以及业务需求，我们优先选用对冷数据进行压缩的方式，来降低集群的磁盘存储占用。

当前比较成熟的压缩方案有两种：

（1）用户写入数据时压缩

此种方案成本较低，在客户端开启压缩即可。但是对于集群管理来说，带来了挑战。同时无法有效的区分集群中的冷热数据。

（2）后台透明压缩

后台透明压缩，通过hadoop本身的存储策略，以及linux特定存储系统实现。能够对前台用户透明的进行数据压缩，同时可以较好的定量冷热数据，方便集群管理控制。同时，方案技术难度相对更高。

基于集群自身情况，减少对上层用户的影响，决定选用后台透明压缩的方案。透明压缩技术使用到了HDFS异构存和ZFS文件系统级压缩技术。

（1）HDFS分层异构存储策略

HDFS的分层异构存储是hadoop2.6+中引入的新技术，支持将不同使用频度的数据放入不同的存储介质，以更合理的使用集群资源。如，冷数据放在磁盘或者介质密度更大的文件系统。热数据放在SSD等。异构存储使得一套Hadoop可以分类存储冷热数据。

在hadoop中，将存储类型分为RAM_DISK,SSD,DISK,ARCHIVE等几种类型，其存储速度顺次降低，存储成本也相应顺次降低。同时，hadoop提供了针对不同存储介质的存储策略。

Lazy_Persist：基于内存的存储策略。将多备份中的一块放入内存，其余放在磁盘
All_SSD: 所有数据块均放在SSD中。
ONE_SSD:一块放入SSD中，其余放在磁盘中，这是对All_SSD的折中。
Hot：Hdfs默认的存储策略，当前集群使用的也是此种策略。
Warm：一块放在磁盘，其余放入ARCHIVE高密度存储中。此种策略比较适合对仍有使用的冷数据。
Cold：所有数据块均放入ARCHIVE中，实现冷数据的高密度存储。但是在读取时，需要花费一定的时间。

当前集群使用的是默认HOT策略，即所有冷热块都放在DISK上。

（2）Linux ZFS文件系统

ZFS文件系统（的英文名称为ZettabyteFileSystem）,也叫动态文件系统（DynamicFileSystem）,是第一个128位文件系统。最初是由Sun公司为Solaris10操作系统开发的文件系统。作为OpenSolaris开源计划的一部分，ZFS于2005年11月发布，被Sun称为是终极文件系统，经历了10年的活跃开发，而最新的开发将全面开放，并重新命名为OpenZFS。

ZFS文件系统具有如下的特点：

存储池
Zfs摒弃了传统的卷管理等复杂方式，用存储池的概念统一管理所有存储空间。

自我修复功能数据保护-软raid
ZFS文件系统通过ZFS Mirror和 RAID-Z，在读取文件时进行校验。如果有错误则向上层汇报并自动修复错误。
压缩与可变块大小
ZFS支持压缩功能，能够在数据写入和读取时，进行压缩和解压缩操作。可变块大小则会在文件存储时，自动设置其块大小。
写时拷贝/校验和/快照
ARC（自适应内存缓存）与L2ARC（SSD做二级缓存）

设计方案与实现

基于ZFS的Hadoop透明压缩技术的Hadoop透明压缩的核心是利用Hadoop异构存储特性，将特定的数据写入到支持写入和读取压缩的文件系统中。以实现特定类型数据的透明压缩，透明解压缩。这其中的其关键部分是异构存储数据的快速界定，压缩文件系统的性能最优调整。

下图是该技术的主要实现流程：

首先，界定需要做冷热数据隔离的主要内容；其次，上图是Hadoop透明压缩的设计思路。生成特定的通过获取特定的冷数据列表，并标记其冷数据率；然后，定期从冷数据表中取出为完成冷数据迁移的行，进行移动。

在此过程中，我们做了如下的优化工作：

（1）Hadoop冷热数据分离优化

1）异构存储策略选择

Hadoop提供了多种存储策略。基于集群的实际情况。决定采用了WARM策略来存储冷数据。即利用WARM策略，一块备份仍存放于磁盘，其他两个备份被分块会被写入支持压缩的ZFS文件系统。这既较大程度的对冷数据进行了压缩，又在需要读取冷数据时，直接提供了一份未压缩数据进行读取。

2）HDFS冷热数据移动优化

完成存储策略设定后，启动hdfs mover，hadoop会自动移动冷热数据到目的空间。但是此时会出现一个问题。默认情况下，Hadoop会扫描所有HDFS数据块，以判定其是否处于合适的位置空间。这在集群规模较大时，该操作会耗费较多的时间。且每一次扫描，均会进行全块扫描。为了解决此问题，我们通过建立冷数据表来提高扫描效率。基于此种情况。我们做了一些优化：

1> 基于hive元数据，选择创建超过三月的分区目录，加入待移动列表。根据hive库信息/表/分区的形式，建立扫描空间，避免全集群扫描
2> 定期更新待移动列表中每个目录的完成率，对于完成率统计每个分区的移动率，对于移动率100%的目录路径，不再进行扫描。
3> 定期取出完成率小于移动率不为100%的目录。路径，形成一个移动数据文件。执行hdfs mover –f path.txt 以此限定mover的扫描范围仅限在指定的路径中
采取上述措施后，极大的减少了每次mover扫描的数据量，大幅提升移动速度。

（2）ZFS文件系统优化

1）ZFS文件系统压缩效率

ZFS文件系统本身内在支持多种压缩算法，数据写入时压缩，读取时解压。常用的压缩算法有GZ，LZ4等。合理选择压缩算法，有助于最大限度的提升透明压缩的效率。

1> ZFS-gz，ZFS-lz4，ext4下压缩效率及CPU占用。从下方表格可以看出，GZ的压缩效率最好，CPU占用也最高。

2> 读取效率对比

由上图可知，zfs文件系统下，gz和lz4的读取和写入效率均高于ext4文件系统。gz与lz4在读取，写入速度多上各有优劣。Lz4稍微占优。

3> datanode加载速度对比

DataNode对压缩数据的加载时间，直接关系到访问此部分数据时的效率。

从上表可知,ZFS的gz压缩在DataNode加载数据上对LZ4有部分优势。较为接近EXT4。

综合考虑压缩率，读取、写入速度、datanode加载速度等，选定gz作为ZFS文件系统的压缩算法。

2）ZFS文件系统ARC缓存调整

ZFS文件系统的ARC缓存系统是一种同时缓存数据块请求和数据块使用频度的新型缓存系统，设置合适的大小，有利于有效的发挥ZFS文件系统的性能。

测试发现，在将缓存由10GB调整为100GB时，ZFS文件系统并无显著提升，因此将ZFS文件系统的ARC缓存设定为10GB

3）关闭atime

Atime是一个文件或目录的最后访问时间，如果文件被频繁访问，那么atime就会被频繁更新。这会影响到磁盘的性能瓶颈，其影响范围会包含ext4，zfs等文件系统。关闭atime对hadoop磁盘性能提升较大。

4）DataNode使用Jbod而不是Raid

在Hadoop中，可以通过对磁盘raid来提升数据的安全性，在namenode节点，我们可以如此配置。保障namenode数据的安全。对于DataNode，hadoop的Jbod机制已经能够保障数据安全，对datanode使用raid会降低存储性能。在相关测试中，raid相比jbod有10%-30%的性能损失。

透明压缩成效

在Hadoop集群透明压缩上线后，集群的存储资源明显下降，以相对少的服务器，满足了当前线上业务对空间的需求，同时上线后，未对上层业务作出变动，实现了透明压缩。

（1）集群存储情况

当前集群存储数据逻辑占用约3.1PB，依据hadoop的3备份原则，需要至少9.3PB的空间来存储这些数据。当前总空间约7PB，远不能满足需求。在上线Hadoop的透明压缩后，目前存储空间以使用约6PB，约占85%。节省了月3PB+的存储资源。以单台服务器80TB存储空间计算，节省了约40台服务器。数百万成本。

同时，在该项目上线的前三天，日均压缩数据180TB，压缩比22%。在上线前，集群数据急剧增加（3天内）：

上线透明压缩后：

在数据量持续增加的情况下，实现了集群存储占用的不断下降。

（2）用户影响

透明压缩针对的是文件系统级的压缩，用户在使用时，完全无感知。实现了对用户的透明。

未来展望

（1）QAT加速与全数据压缩

QAT加速卡是intel推出的用于协助完成数据压缩和解压缩的硬件工具，其将cpu从这项工作中解放。

目前集群中采取了将单台服务器上的部分磁盘更改为ZFS文件系统的策略存压缩存储数据。如果能将所有磁盘均设置为ZFS文件系统，则会实现全数据压缩，进一步减小集群的存储使用。

目前，已经向intel申请了几块QAT加速卡进行测试，未来会给出测试情况分析。

（2）EC码与透明压缩结合

EC码是针对Hadoop三备份策略的优化，能够从根本上减少对存储量。如果与ZFS文件系统压缩结合，会取得比较好的效果。目前只有Haodop3.0+系统才支持该特性，且官方还未提供Release版本，因此该方案更多的是在测试中。具体的需要待官方Release版本发布后，测试其效果。

（3）数据回暖

目前基于分区的创建时间策略，后续可以根据hdfs审计日志，智能分析一段时间不访问的冷数据进行压缩，同时如果冷数据最近发生一定访问规则，可以自动回暖，解除压缩。

作者介绍：
大数据架构团队，负责公司大数据存储平台、计算平台、实时数据流平台的架构、性能优化、研发等，提供高效的大数据olap引擎、以及大数据工具链组件研发，为公司提供稳定、高效、开放的大数据基础组件与基础平台。

本文转载自公众号贝壳产品技术（ID：gh_9afeb423f390）。

原文链接：

https://mp.weixin.qq.com/s/fSrWF4PFZkvky7rkeCf46w

创作场景

基于 ZFS 的 Hadoop 透明压缩