写点什么

分布式存储 cephfs 读取优化方案

  • 2018-12-05
  • 本文字数:12917 字

    阅读完需:约 42 分钟

分布式存储cephfs读取优化方案

继上次分享的 分布式存储系统 Ceph 架构及使用场景解析分布式存储Ceph之PG状态详解 ,这次分享 cephfs 读写优化方面的知识。


用户需要从 cephfs 存储系统中检索一个大文件指定关键字的一行信息, 并且对延迟和性能要求比较高。

2. 原始方案

2.1 流程图

2.2 说明

  • 假如用户拉取的文件大小是 16M, 文件按照 4M 切分,散落到四个数据片上

  • 用户首先请求 cephfs 拉取文件信息

  • cephfs 会根据 crush 算法找计算文件散落到那几个数据片上

  • cephfs 会拉取文件所属的数据片然后聚合起来

  • cephfs 文件拉取后返回给用户

  • 用户拉取完整个文件,开始做过滤关键字操作

2.3 实战

//检索2.7G文件为例$ ll -lh nginx/logs/access.log.2018102911-rw-rw-r-- 1 root root 2.7G Oct 29 12:07 nginx/logs/access.log.2018102911
//grep 模拟花费12s$ time grep "xxxyyyzzzqqq" nginx/logs/access.log.2018102911
real 0m12.355suser 0m0.302ssys 0m0.823s
复制代码

2.4 优缺点

优点


  • 简单方便

  • 开发成本低


缺点


  • 用户端检索延迟大,影响用户体验

  • 客户端集群网卡带宽波动较大,带宽有限,每次都需要把大日志文件拉取到客户端

  • 对 ceph 集群负载也有波动影响

2.5 总结

用户拉取文件,必须先通过 cephfs 拉取文件到本地,然后根据关键字检索这行数据。如果用户检索量比较大的时候,并且文件大小都不统一,拉取文件越大网络延迟越高,并且在大文件中过滤关键字效率非常低,严重影响用户的体验。

3. 优化方案

3.1 流程图

3.2 说明

  • 用户发起请求输入文件名和 key 关键字到达索引层

  • 索引层根据 key 找到对应的 offset 信息,然后传给 dss-readline

  • dss-readline 根据 cephfs cursh 算法找到对应的 object 信息和 offset 信息

  • 根据 dss-readline 用户输入的 offset 找到对应的 object 块信息

  • dss-readline 直接获取需要块的 offset 该行的信息

3.3 实战

//查找2.8G文件offset对应的信息$ ll  nginx/logs/access.log.2018110216 -lh-rw-rw-r-- 1 root root 2.8G Nov  2 17:08 nginx/logs/access.log.2018110216
//sed的方式模拟,花费12s$ time sed -n "1024p" nginx/logs/access.log.2018110216
real 0m12.042suser 0m1.191ssys 0m0.929s
//dss_readfile 自研工具, 输入参数:poolname, filename, offset 可以看出来花费91ms//usage: dss_readfile <poolname> <filename> <offset>time ./dss_readfile data nginx/logs/access.log.2018110216 1024
real 0m0.091suser 0m0.042ssys 0m0.011s
复制代码

3.4 优缺点

缺点


  • 需要额外开发成本


优点


  • 提升用户体验,从以前检索单个 2.8G 文件耗时 10s 左右, 优化后控制在 100ms 左右

  • 客户端网络网卡带宽可用率得到提升

  • 减少对 ceph 集群的冲击影响

3.5 总结

思路:


由于文件信息是放到服务端,进行切片存储到数据节点。


我们能不能只拉取我需要的块信息,不用全量拉取到本地,答案是肯定的。


  • 根据文件信息查找所有的 object、offset 信息

  • 根据 offset 找到需要检索的 object 信息

  • 找到对应的 object,读取该 object 对应的 offset 位置的信息(一行数据可能会拆分多个 object)


优点:


  • 提升用户体验,从以前检索单个 2.8G 文件耗时 10s 左右, 优化后控制在 100ms 左右

  • 客户端网络网卡带宽可用率得到提升

  • 减少对 ceph 集群的冲击影响

4. 深入分析

4.1 文件对应 object 信息

4.1.1 Jewel 版本

//Ceph Jewel版本里,有个cephfs的工具,可以获取file的location信息//根据offset查找object信息$ cephfs /mnt/kernel_log_push.log show_location -l 4194304WARNING: This tool is deprecated.  Use the layout.* xattrs to query and modify layouts.location.file_offset:  4194304location.object_offset:0location.object_no:    1location.object_size:  4194304location.object_name:  10002b63282.00000001location.block_offset: 0location.block_size:   4194304location.osd:          67
//file object map 信息$ cephfs /mnt/kernel_log_push.log mapWARNING: This tool is deprecated. Use the layout.* xattrs to query and modify layouts. FILE OFFSET OBJECT OFFSET LENGTH OSD 0 10002b63282.00000000 0 4194304 61 4194304 10002b63282.00000001 0 4194304 67 8388608 10002b63282.00000002 0 4194304 70 12582912 10002b63282.00000003 0 4194304 68
复制代码

4.1.2 源码跟踪

ceph jewel 版本,cephfs 代码


[](https://github.com/ceph/ceph/blob/v10.2.9/src/cephfs.cc#L117)
复制代码


    struct ceph_ioctl_layout layout;    memset(&layout, 0, sizeof(layout));    //获取layout信息    err = ioctl(fd, CEPH_IOC_GET_LAYOUT, (unsigned long)&layout);    if (err) {      cerr << "Error getting layout: " << cpp_strerror(errno) << endl;      return 1;    }
printf("%15s %24s %12s %12s %s\n", "FILE OFFSET", "OBJECT", "OFFSET", "LENGTH", "OSD"); for (long long off = 0; off < st.st_size; off += layout.stripe_unit) { struct ceph_ioctl_dataloc location; location.file_offset = off; //获取location 信息 err = ioctl(fd, CEPH_IOC_GET_DATALOC, (unsigned long)&location); if (err) { cerr << "Error getting location: " << cpp_strerror(errno) << endl; return 1; } printf("%15lld %24s %12lld %12lld %d\n", off, location.object_name, (long long)location.object_offset, (long long)location.block_size, (int)location.osd); }
复制代码


CEPH_IOC_GET_DATALOC 代码


//定义/src/client/ioctl.h//https://github.com/ceph/ceph/blob/d038e1da7a6c9b31ba4463b8ebedb9908981a55e/src/client/ioctl.h#L46#define CEPH_IOC_GET_DATALOC _IOWR(CEPH_IOCTL_MAGIC, 3,  \           struct ceph_ioctl_dataloc)
//fuse 代码跟踪, 发现只支持layout//https://github.com/ceph/ceph/blob/d038e1da7a6c9b31ba4463b8ebedb9908981a55e/src/client/fuse_ll.cc#L631static void fuse_ll_ioctl(fuse_req_t req, fuse_ino_t ino, int cmd, void *arg, struct fuse_file_info *fi, unsigned flags, const void *in_buf, size_t in_bufsz, size_t out_bufsz){ CephFuse::Handle *cfuse = fuse_ll_req_prepare(req);
if (flags & FUSE_IOCTL_COMPAT) { fuse_reply_err(req, ENOSYS); return; }
switch (static_cast<unsigned>(cmd)) { case CEPH_IOC_GET_LAYOUT: { file_layout_t layout; struct ceph_ioctl_layout l; Fh *fh = (Fh*)fi->fh; cfuse->client->ll_file_layout(fh, &layout); l.stripe_unit = layout.stripe_unit; l.stripe_count = layout.stripe_count; l.object_size = layout.object_size; l.data_pool = layout.pool_id; fuse_reply_ioctl(req, 0, &l, sizeof(struct ceph_ioctl_layout)); } break; default: fuse_reply_err(req, EINVAL); }}
//kernel cephfs代码, 支持layout, 支持dataloc// /usr/src/debug/kernel-3.10.0-693.17.1.el7/linux-3.10.0-693.17.1.el7.x86_64/fs/ceph/ioctl.clong ceph_ioctl(struct file *file, unsigned int cmd, unsigned long arg){ dout("ioctl file %p cmd %u arg %lu\n", file, cmd, arg); switch (cmd) { case CEPH_IOC_GET_LAYOUT: return ceph_ioctl_get_layout(file, (void __user *)arg);
case CEPH_IOC_SET_LAYOUT: return ceph_ioctl_set_layout(file, (void __user *)arg);
case CEPH_IOC_SET_LAYOUT_POLICY: return ceph_ioctl_set_layout_policy(file, (void __user *)arg);
case CEPH_IOC_GET_DATALOC: return ceph_ioctl_get_dataloc(file, (void __user *)arg);
case CEPH_IOC_LAZYIO: return ceph_ioctl_lazyio(file);
case CEPH_IOC_SYNCIO: return ceph_ioctl_syncio(file); }
return -ENOTTY;}
static long ceph_ioctl_get_dataloc(struct file *file, void __user *arg){ ... r = ceph_calc_file_object_mapping(&ci->i_layout, dl.file_offset, len, &dl.object_no, &dl.object_offset, &olen); if (r < 0) { up_read(&osdc->lock); return -EIO; } dl.file_offset -= dl.object_offset; dl.object_size = ceph_file_layout_object_size(ci->i_layout); dl.block_size = ceph_file_layout_su(ci->i_layout);
/* block_offset = object_offset % block_size */ tmp = dl.object_offset; dl.block_offset = do_div(tmp, dl.block_size);
snprintf(dl.object_name, sizeof(dl.object_name), "%llx.%08llx", ceph_ino(inode), dl.object_no);
...
复制代码

4.1.2 Luminous 版本

Luminous 版本里,没有 src/cephfs.cc 文件, 发现 test_ioctls.c 其实有相关的测试代码。


https://github.com/ceph/ceph/blob/master/src/client/test_ioctls.c


/src/client/test_ioctls.c


int main(int argc, char **argv){  ...  fd = open(fn, O_CREAT|O_RDWR, 0644);  if (fd < 0) {    perror("couldn't open file");    return 1;  }
/* get layout */ err = ioctl(fd, CEPH_IOC_GET_LAYOUT, (unsigned long)&l); if (err < 0) { perror("ioctl IOC_GET_LAYOUT error"); return 1; } printf("layout:\n stripe_unit %lld\n stripe_count %lld\n object_size %lld\n data_pool %lld\n", (long long)l.stripe_unit, (long long)l.stripe_count, (long long)l.object_size, (long long)l.data_pool);
/* dataloc */ dl.file_offset = atoll(argv[2]); err = ioctl(fd, CEPH_IOC_GET_DATALOC, (unsigned long)&dl); if (err < 0) { perror("ioctl IOC_GET_DATALOC error"); return 1; }
printf("dataloc:\n"); printf(" file_offset %lld (of object start)\n", (long long)dl.file_offset); printf(" object '%s'\n object_offset %lld\n object_size %lld object_no %lld\n", dl.object_name, (long long)dl.object_offset, (long long)dl.object_size, (long long)dl.object_no); printf(" block_offset %lld\n block_size %lld\n", (long long)dl.block_offset, (long long)dl.block_size); ...
复制代码

4.2 总结

  • 目前只有 kernel 版本支持 CEPH_IOC_GET_DATALOC

  • 根据文件以及 offset 可以获取对应的 object 信息。 目前只支持内核 kernel 版本。

4.3 获取这个对象 offset 对应行的信息

问题点:


  • 一行数据可能会拆分为两个对象

  • 一行数据结尾符是否存在\n

  • 一行数据超大等问题


解决方案:


  • 用户给的 offset 属于这一行的开头, 只需要读取当前读取数据是否存在\n。

  • a. 如果存在\n 证明该行,属于完整的行。

  • b. 否则不存在\n 证明该行,被拆分为两个对象,读取当前 offset 对应的 object 信息以及下一个对象的信息,直到遇到\n 结束,然后合并两个对象读取的数据为完整的行。

  • 超大行或者不存在结尾符\n 自动截取 1024 字节数。

4.4 通过 librados 库,读取 object 的信息

 /* Declare the cluster handle and required arguments. */    int                                 err;    char                                cluster_name[] = "ceph";    char                                user_name[] = "client.admin";    uint64_t                            flags = 0;    rados_t                             cluster;    rados_ioctx_t                       io;    rados_completion_t                  comp;


/* Initialize the cluster handle with the "ceph" cluster name and the "client.admin" user */ err = rados_create2(&cluster, cluster_name, user_name, flags); if (err < 0) { fprintf(stderr, "error: couldn't create the cluster handle poolname=[%s] object_name=[%s] offset=[%d] error=[%s]\n", poolname, object_name, offset, strerror(-err)); return 1; }
/* Read a Ceph configuration file to configure the cluster handle. */ err = rados_conf_read_file(cluster, "/etc/ceph/ceph.conf"); if (err < 0) { fprintf(stderr, "error: cannot read config file poolname=[%s] object_name=[%s] offset=[%d] error=[%s]\n", poolname, object_name, offset, strerror(-err)); return 1; }
/* Connect to the cluster */ err = rados_connect(cluster); if (err < 0) { fprintf(stderr, "error: cannot connect to cluster poolname=[%s] object_name=[%s] offset=[%d] error=[%s]\n", poolname, object_name, offset, strerror(-err)); return 1; }
//create io err = rados_ioctx_create(cluster, poolname, &io); if (err < 0) { fprintf(stderr, "error: cannot open rados pool poolname=[%s] object_name=[%s] offset=[%d] error=[%s]\n", poolname, object_name, offset, strerror(-err)); rados_shutdown(cluster); return 1; }
/* * Read data from the cluster asynchronously. * First, set up asynchronous I/O completion. */ err = rados_aio_create_completion(NULL, NULL, NULL, &comp); if (err < 0) { fprintf(stderr, "error: could not create aio completion poolname=[%s] object_name=[%s] offset=[%d] error=[%s]\n", poolname, object_name, offset, strerror(-err)); rados_ioctx_destroy(io); rados_shutdown(cluster); return 1; }
/* Next, read data using rados_aio_read. */ err = rados_aio_read(io, object_name, comp, line, line_size, offset); if (err < 0) { fprintf(stderr, "error: cannot read object poolname=[%s] object_name=[%s] offset=[%d] error=[%s]\n", poolname, object_name, offset, strerror(-err)); rados_ioctx_destroy(io); rados_shutdown(cluster); return 1; } /* Wait for the operation to complete */ rados_aio_wait_for_complete(comp); /* Release the asynchronous I/O complete handle to avoid memory leaks. */ rados_aio_release(comp);
rados_ioctx_destroy(io); rados_shutdown(cluster);
复制代码

4.5 项目工具

1. 源码地址



2. dss_readfile 工具


  • 根据存储池、文件信息、offset 获取对应的信息


//usage: dss_readfile <poolname> <filename> <offset>./dss_readfile data nginx/logs/access.log.2018110216 1024
复制代码


3. ngx_cephfs_readline


  • 为了提升性能以及用户体验,基于 ceph module + librados 开发,充分利用 nginx 优秀的高并发性能。


//接口
http://127.0.0.1 :8088/v1/dss-cephfs/readfile

//请求body{ "poolname":"data", "filename":"/mnt/business.log.2018101708", "offset":1024}
//响应body{ "code":1, "cost": 50, "data":"[INFO][2018-10-17T08:59:49.018+0800] xxxxxx"}
复制代码

4.7 资料


作者介绍:李航, 多年的底层开发经验,在高性能 nginx 开发和分布式缓存 redis cluster 有着丰富的经验,目前从事分布式存储 Ceph 工作。先后在 58 同城、汽车之家、优酷土豆集团工作。


目前供职于滴滴基础平台运维部-技术专家岗位,主要负责分布式 Ceph 系统。个人主要关注的技术领域:高性能 Nginx 开发、分布式缓存、分布式存储。


2018-12-05 15:562426

评论 1 条评论

发布
暂无评论
发现更多内容

【春季2月CSM认证周末班】提前报名特惠--“全球金牌”课程CST导师亲授

ShineScrum

ScrumMaster 项目经理 ScrumMaster认证 CSM认证

模块二作业 (架构实战训练营)

Justin

架构实战营

Datawhale学习笔记【阿里云天池 金融风控-贷款违约预测】Task2 数据分析

一颗小树

TiDB PPT玩家快速点评 V6.5 新特性

TiDB 社区干货传送门

版本测评

2022年度回顾|龙蜥这一年:协同开放 众行致远

OpenAnolis小助手

开源社区 龙蜥 贡献 协同开放

我理解的卓越工程

agnostic

卓越工程

深入浅出学习透析Nginx服务器的架构分析及原理分析「底层技术原理+运作架构机制」

洛神灬殇

nginx 负载均衡 反向代理 优化架构

【春季2月A-CSM特惠周末班】ScrumMaster进阶课程 · CST导师亲授

ShineScrum

敏捷教练 高阶SM 敏捷教练技能

企业数字化转型,工具先行

飞算JavaAI开发助手

湖仓一体电商项目(十七):业务实现之编写写入DIM层业务代码

Lansonli

湖仓一体电商项目

一图回顾博睿数据的2022

博睿数据

年度报告 博睿数据

全球化商家平台技术探索与演进

阿里技术

全球化 架构演进

开源SPL强化MangoDB计算

石臻臻的杂货铺

开源 SPL

正式起航!用友23大行业客户与解决方案事业部全面亮相

用友BIP

用友BIP

有什么方法从 PostgreSQL 数据迁移到 TiDB ?

TiDB 社区干货传送门

迁移 实践案例 管理与运维

【新春特惠周末班】2月4-5日在线CSPO“价值交付课程” | 全国招生

ShineScrum

产品负责人 CSPO认证 CSPO

如何通过Java代码在PDF中插入、替换或删除图像?

在下毛毛雨

Java PDF 图像

Electron打包错误的踩坑小记

茶无味的一天

前端 Electron Node electron实战

2022最新MySQL高频面试题汇总

程序员大彬

MySQL 数据库 计算机

“祝福海报”小程序走红,AIGC走进“千家万户”

科技热闻

赛意信息张成康:在行业场景驱动下为企业创造数字化价值

科技热闻

一份价格,双份收货,彻底搞定 PPT,兔年解放你自己

博文视点Broadview

喜报|HarmonyOS开发者社区连获业内奖项,持续深耕开发者生态

HarmonyOS开发者

HarmonyOS

KaiwuDB CTO 魏可伟:1.0 时序数据库技术解读

KaiwuDB

时序数据库 多模数据库 技术优势

京东探索研究院 | 2023年十大科技趋势

京东科技开发者

京东 技术分享 京东云 技术预测 企业号 1 月 PK 榜

TiCDC 源码解读(4)-- TiCDC Scheduler 工作原理解析

TiDB 社区干货传送门

TiCDC 源码解读

Transformer 再添一员,比 Swin 更强的 DiNAT

Zilliz

设计文档概述

五毛

设计原则

采购LED显示屏要注意的五大技术参数

Dylan

LED显示屏 全彩LED显示屏 led显示屏厂家

QEMU与KVM架构介绍

Linux内核拾遗

Linux 虚拟化 qemu kvm

视觉模型 ConvNeXt V2,结合纯卷积与MAE

Zilliz

计算机视觉

分布式存储cephfs读取优化方案_大数据_李航_InfoQ精选文章