在网易集团，基于Kubernetes构建的网易轻舟云原软件生产力平台扮演着支撑数字化业务快速高效创新的重任，帮助业务团队快速实现云原生应用，提高研发效能，并节省运维成本。

作为网易轻舟云原生平台的存储后端，CephFS主要为网易轻舟容器平台NCS解决容器间共享存储的问题。尤其是在当前比较火的AI训练场景应用十分广泛，存储规模达已达数PB级，CephFS的性能优化等工作非常重要。

Ceph和CephFS简介

Ceph由RADOS作为底座，上层提供对象、块、文件等接口服务。RADOS由MON、OSD、MGR组成，MON负责集群的各类视图（osdmap，pgmap等），健康状态的管理。MGR则提供了丰富的系统信息查询功能，以及支持第三方模块接入（Zabbix，Prometheus，Dashboard等）。OSD则负责最终的数据存储，一般一个OSD对应一块磁盘。

CephFS在此架构基础之上增加了MDS和client，其中MDS负责文件系统的元数据管理和持久化操作。client则对外提供了兼容POSIX语义的文件系统客户端，可通过mount命令进行挂载。

CephFS典型实践

部署

整个CephFS在轻舟Kubernetes环境中的部署架构如下：

在Kubernetes的使用场景里，CephFS集群的部署和常规Ceph类似，为了提高元数据处理能力，一般会将元数据pool单独用SSD的OSD来搭建独立的物理池。Kubernetes社区提供了cephfs-provisioner来支持分配pv，以及进行client的挂载。通过将ceph-client挂载在node节点上，最终映射给Pod使用。同时会有对应的Prometheus监控Pod对集群进行各项指标的监控和告警。

CephFS pv性能监控

在云原生的存储系统中，IO的可观测性是一项重要指标，也是我们最终客户迫切需要的需求。原生的CephFS在客户端性能监控方面做得比较简单，网易杭研存储团队丰富了读写性能指标项，最终集成在网易轻舟平台上。用户可以直接的看到业务的性能可使用情况，具体如下：

CephFS支持多性能类型pvc

为了满足业务的不同存储性能需求，我们为CephFS提供了多性能后端的pvc类型。该方案需要Kubernetes和CephFS两方配合完成，我们以常见的SAS，SSD后端存储类型为例进行描述，具体如下：

1.创建CephFS集群，包括MON，OSD，MDS，MGR服务等。
2.在crush规则中创建物理池，即meta_root，data_sas_root，data_ssd_root。其中meta_root，data_ssd_root由SSD盘对应的OSD组成，data_sas_root由SAS盘对应的OSD组成。
3.创建逻辑pool，分别在上述的3种类型的root中创建meta_pool，data_sas_pool，data_ssd_pool。

4.创建文件系统，并指定meta，data逻辑pool。

  ceph fs new fs_name meta_pool data_sas_pool

5.在CephFS的文件系统根目录下创建2个子目录，即/pvc-volumes-sas和/pvc-volumes-ssd，目录所属用户和组为root:root，权限777

6.为上述2个目录指定存储池。

	setfattr ‐n ceph.dir.layout.pool ‐v data‐sas pvc‐volumes‐sas
	setfattr ‐n ceph.dir.layout.pool ‐v data‐ssd pvc‐volumes‐ssd

7.Kubernetes可在这两个目录下创建对应类型的pv提供给pod使用。CephFS会将写入不同目录的数据写入到指定的存储类型设备上(SAS/SSD)。以下我们来举例说明：

1）.创建StorageClass，并等待ceph开发配置好对应的存储池（上面的步骤6）

	kind: StorageClass
	metadata:
	name: cephfs‐provisioner‐sc‐sas ## 或者cephfs‐provisioner‐sc‐ssd
	provisioner: ceph.com/cephfs
	volumeBindingMode: WaitForFirstConsumer
	parameters:
	monitors: 192.168.27.43:6789,192.168.27.44:6789,192.168.27.45:6789
	adminId: admin
	adminSecretName: csi‐cephfs‐secret
	adminSecretNamespace: "kube‐csi"
	claimRoot: /pvc‐volumes‐sas ## or /pvc‐volumes‐ssd

2）.创建pvc

	apiVersion: v1
	kind: PersistentVolumeClaim
	metadata:
	name: claim‐sas ##claim‐sas
	spec:
	accessModes:
	‐ ReadWriteOnce
	storageClassName: cephfs‐provisioner‐sc‐sas ##cephfs‐provisioner‐sc‐ssd
	resources:
	requests:
	storage: 30Gi

3）.使用pvc

	# pod使用pvc
	apiVersion: v1
	kind: Pod
	metadata:
	name: task‐pv‐pod
	spec:
	volumes:
	‐ name: task‐pv‐storage
	persistentVolumeClaim:
	claimName: claim‐sas ## pvc name
	containers:
	‐ name: task‐pv‐container
	image: nginx
	ports:
	‐ containerPort: 80
	name: "http‐server"
	volumeMounts:
	‐ mountPath: "/usr/share/nginx/html"
	name: task‐pv‐storage

	# deployment使用pvc
	apiVersion: apps/v1
	kind: Deployment
	metadata:
	name: nginx‐with‐pvc
	spec:
	replicas: 1
	template:
	metadata:
	labels:
	service: nginx
	app: test
	spec:
	containers:
	‐ image: nginx
	name: nginx‐with‐pvc
	volumeMounts:
	‐ mountPath: /test‐pvc
	name: my‐sas‐pvc
	volumes:
	‐ name: my‐sas‐pvc
	persistentVolumeClaim:
	claimName: claim‐sas ## pvc name

CephFS线上问题分析与优化

CephFS产品在测试和上线后也遇到过不少问题，这里举几个例子分享一下。

ceph-fuse io性能优化

问题现象：

某用户在使用dd命令：dd if=/dev/zero of=./test2 bs=1M count=100 oflag=direct 写一个文件的时候io性能只能达到30MB/s，而本地文件系统可以达到100MB/s的写入性能，差距较大。

问题分析：

1.我们调整了dd的bs参数设置到2M,256K,128K,64K分别进行了测试
2.发现当bs小于128k的时候，带宽会变小，bs大于或等于128k的时候带宽始终不变。
3.如上图，我们分析fuse内核态代码(fuse.ko)以及libfuse都有对IO的限制，当IO大于128k 的时候会进行拆分同步下发。

问题解决：

1.修改了对应的fuse限制相关的代码，加载新的fuse.ko以及libfuse。
2.重新测试dd命令，在bs=1M的时候性能从30MB/s提升到120MB/s。

CephFS空间回收优化

问题现象：

某用户反馈在PV中实际数据只有几百G，但是通过监控显示实际占用10多T的空间，使用率已经达到70%以上，如下图。

问题分析：

1.通过和用户沟通，了解到大致的应用场景是持续不断的写文件以及删除老文件。
2.而我们通过水位的监控看到容量一直在持续增长。

3.通过Ceph的工具查看到回收站中待删除文件达到3万多，但是并无文件被删除，如下图。

4.通过Ceph的命令工具发现有几十个client连接着ceph-mds。个别client拥有几万的caps(文件句柄)。由此可知文件虽然被某个client删除，但是其他的client还未将文件关闭，导致文件一直处于待删除状态。

问题解决：

1.推动用户将有问题的client文件句柄进行释放，则触发文件删除，最后集群容量降下来了。

未来的工作

多MDS负载均衡

当前CephFS使用的还是主备MDS，我们已经发现单MDS间歇性会因为瞬时的处理请求太多而产生slow request。接下来我们会切换到多活MDS，对用户不同的pv到MDS的映射进行统一调度，避免单一MDS的负载过高，有效提升整个存储系统的性能。

性能优化

读写时延的降低以及并发能力的提高在典型应用场景AI训练上，能够大幅度降低训练周期，使多个业务方受益。接下来我们会在SSD Cache，以及当前的IO瓶颈分析方面持续优化改进，增强网易存储产品竞争力。

作者简介：

胡遥，网易杭州研究院Ceph存储负责人。

创作场景

CephFS+Kubernetes 在网易轻舟容器平台的实践