继上次分享的 分布式存储系统 Ceph 架构及使用场景解析 和 分布式存储Ceph之PG状态详解 ,这次分享 cephfs 读写优化方面的知识。
用户需要从 cephfs 存储系统中检索一个大文件指定关键字的一行信息, 并且对延迟和性能要求比较高。
2. 原始方案
2.1 流程图
2.2 说明
假如用户拉取的文件大小是 16M, 文件按照 4M 切分,散落到四个数据片上
用户首先请求 cephfs 拉取文件信息
cephfs 会根据 crush 算法找计算文件散落到那几个数据片上
cephfs 会拉取文件所属的数据片然后聚合起来
cephfs 文件拉取后返回给用户
用户拉取完整个文件,开始做过滤关键字操作
2.3 实战
2.4 优缺点
优点
简单方便
开发成本低
缺点
用户端检索延迟大,影响用户体验
客户端集群网卡带宽波动较大,带宽有限,每次都需要把大日志文件拉取到客户端
对 ceph 集群负载也有波动影响
2.5 总结
用户拉取文件,必须先通过 cephfs 拉取文件到本地,然后根据关键字检索这行数据。如果用户检索量比较大的时候,并且文件大小都不统一,拉取文件越大网络延迟越高,并且在大文件中过滤关键字效率非常低,严重影响用户的体验。
3. 优化方案
3.1 流程图
3.2 说明
用户发起请求输入文件名和 key 关键字到达索引层
索引层根据 key 找到对应的 offset 信息,然后传给 dss-readline
dss-readline 根据 cephfs cursh 算法找到对应的 object 信息和 offset 信息
根据 dss-readline 用户输入的 offset 找到对应的 object 块信息
dss-readline 直接获取需要块的 offset 该行的信息
3.3 实战
3.4 优缺点
缺点
需要额外开发成本
优点
提升用户体验,从以前检索单个 2.8G 文件耗时 10s 左右, 优化后控制在 100ms 左右
客户端网络网卡带宽可用率得到提升
减少对 ceph 集群的冲击影响
3.5 总结
思路:
由于文件信息是放到服务端,进行切片存储到数据节点。
我们能不能只拉取我需要的块信息,不用全量拉取到本地,答案是肯定的。
根据文件信息查找所有的 object、offset 信息
根据 offset 找到需要检索的 object 信息
找到对应的 object,读取该 object 对应的 offset 位置的信息(一行数据可能会拆分多个 object)
优点:
提升用户体验,从以前检索单个 2.8G 文件耗时 10s 左右, 优化后控制在 100ms 左右
客户端网络网卡带宽可用率得到提升
减少对 ceph 集群的冲击影响
4. 深入分析
4.1 文件对应 object 信息
4.1.1 Jewel 版本
4.1.2 源码跟踪
ceph jewel 版本,cephfs 代码
CEPH_IOC_GET_DATALOC 代码
4.1.2 Luminous 版本
Luminous 版本里,没有 src/cephfs.cc 文件, 发现 test_ioctls.c 其实有相关的测试代码。
https://github.com/ceph/ceph/blob/master/src/client/test_ioctls.c
/src/client/test_ioctls.c
4.2 总结
目前只有 kernel 版本支持 CEPH_IOC_GET_DATALOC
根据文件以及 offset 可以获取对应的 object 信息。 目前只支持内核 kernel 版本。
4.3 获取这个对象 offset 对应行的信息
问题点:
一行数据可能会拆分为两个对象
一行数据结尾符是否存在\n
一行数据超大等问题
解决方案:
用户给的 offset 属于这一行的开头, 只需要读取当前读取数据是否存在\n。
a. 如果存在\n 证明该行,属于完整的行。
b. 否则不存在\n 证明该行,被拆分为两个对象,读取当前 offset 对应的 object 信息以及下一个对象的信息,直到遇到\n 结束,然后合并两个对象读取的数据为完整的行。
超大行或者不存在结尾符\n 自动截取 1024 字节数。
4.4 通过 librados 库,读取 object 的信息
4.5 项目工具
1. 源码地址
2. dss_readfile 工具
根据存储池、文件信息、offset 获取对应的信息
3. ngx_cephfs_readline
为了提升性能以及用户体验,基于 ceph module + librados 开发,充分利用 nginx 优秀的高并发性能。
4.7 资料
https://github.com/lidaohang/cephfs_readline (分布式存储 Cephfs 读取优化方案)
作者介绍:李航, 多年的底层开发经验,在高性能 nginx 开发和分布式缓存 redis cluster 有着丰富的经验,目前从事分布式存储 Ceph 工作。先后在 58 同城、汽车之家、优酷土豆集团工作。
目前供职于滴滴基础平台运维部-技术专家岗位,主要负责分布式 Ceph 系统。个人主要关注的技术领域:高性能 Nginx 开发、分布式缓存、分布式存储。
评论 1 条评论