写点什么

360 自研分布式海量小文件存储系统的设计与实现

  • 2019-07-02
  • 本文字数:2548 字

    阅读完需:约 8 分钟

360自研分布式海量小文件存储系统的设计与实现

背景

近年来,公司业务发展迅猛,为数众多的业务场景产生了大量的图片,文档,音频,视频等非结构化数据,尤其是随着移动互联网、AI、IoT 技术的成熟和应用市场的全面爆发,大量智能硬件设备将会生成更大规模的非结构化多媒体数据。如此大量的小文件如何存储,问题应运而生。传统存储厂商出售的存储服务价格昂贵,公有云厂商对具体业务场景的定制化改造略有欠缺,因此,我们决定自研小文件存储服务。

NebulasFs 简介

曾经关注小文件存储技术的同学可能阅读过 Facebook 发表的那篇关于海量小图片存储系统 Haystack 的论文(Finding a needle in Haystack: Facebook’s photo storage),Haystack 通过合并多个小文件成一个大文件、以减少文件数量的方式解决了普通文件系统在存储数量巨大的小文件时的问题:获取一次文件多次读取元数据信息、文件访问的“长尾”效应导致大量文件元数据不容易缓存等。基于在 Haystack 的论文中得到的借鉴和参考,我们研发了自己的分布式小文件存储系统——NebulasFs。它是一个分布式、高可用、高可靠、持久化小文件存储系统,可以存储数以百亿的小文件。

架构设计

从分布式角色上划分,可以分为 Master 和 Datanode 两个大的角色。


其中,Master 负责集群的元数据存储、集群管理、任务调度等工作,它的数据一致性目前由外部一致性工具(ETCD 等)实现。Master 是一个主多个备。Datanode 是面向用户的,它主要负责数据存储和用户请求的路由、分发。


Datanode 节点包括存储 Volume 文件和 Proxy 模块。如下图所示。



用户的请求可以请求任意一个 Datanode 节点,节点的 Proxy 模块会代理用户请求到正确的数据存储节点,并返回给用户结构。对于多个副本的写请求,Proxy 模块会按照副本的一致顺序并行写入直至全部成功后返回。对于读请求只读取第一个副本。

NebulasFs 功能

为了在存储容量、一致性、可用性等方面有更好的提升来满足海量小文件存储的需求,相对于 Haystack 论文,我们在接口服务、分布式架构方面做了更多的优化,主要体现在以下方面:

一、提供给用户使用的服务接口简单、轻量、通用

NebulasFs 提供给用户 Http Restful 接口,协议更简单,使用更方便,用户可以通过简单的 PUT,GET 等操作上传和下载文件。用户无需使用定制的客户端,更加轻量级。

二、用户请求全代理、自动路由

我们知道,Datanode 具有数据存储的功能,可是对于数量众多的 Datanode 来说,用户要想知道哪些数据存储在哪个 Datanode 上是需要先从 Master 拿到数据路由的元数据才知道,这增加了用户请求的复杂度。我们在 Datanode 上增加了请求代理、路由模块把用户的请求自动代理、路由到正确的 Datanode 上,使得用户一次请求既能获取数据。


三、多租户,提供租户资源隔离机制,避免相互影响

一个集群提供的服务可能有多个用户来使用,为了避免互相影响,NebulasFs 抽象出了资源池的概念,不同的资源池物理上是分布在不同的硬件之上,资源池在机器维度上不交叉,可以有效的做到资源的隔离。不同的用户可以分布在不同的资源池也可以共享资源池,这需要管理员提前做好规划。资源池类型是多样的,它的范围可能是跨数据中心的,也可能是跨机柜,也可能是在一个机柜之内的。根据不同的物理硬件性能和数据副本存储冗余需求,对不同类型的数据存储需求也需要提前规划。

四、可定制的数据多副本存储方案,数据无丢失、多种故障域组合

为了提供可用性,保证写入数据不丢失,文件数据一般都会做容灾存储大于 1 的副本数量,以便在发生不可恢复的硬件故障时保证数据可用性以及用作之后的自动补齐副本数量。不同重要级别的数据和不同级别故障类型决定了使用不同级别的存储方案。NebulasFs 预先定义了 5 个级别的故障域,分别是:数据中心、机柜列、机柜、机器、磁盘。要求可用性较高的数据存储时使用跨数据中心做容灾副本,以便在整个数据中心不可用时使用另外一个数据中心的数据。要求没那么高的数据可以在做容灾副本策略的时候选择跨机柜存储即可,使得即便在边沿交换机故障后也可用。



NebulasFs 故障域和资源隔离池之间的关系如下:



S 代表服务器,R-1, R-2 是属于数据中心 DC-1 的两个机柜,R-3, R42 是属于数据中心 DC-2 的两个机柜。Pool-1 是跨机柜故障域的资源隔离池,Pool-2 是跨数据中心故障域的资源池,Pool-3 是跨服务器故障域的资源池。


NebulasFs 故障域逻辑和物理概念对应如下:



其中上半部分是逻辑概念,下半部分是物理概念。用户及请求均与逻辑概念相关,管理运维涉及物理概念相关。一个用户可以对应一个或者多个 Collection, 一个 Collection 对应多个 Volume, 每个 Volume 是存储在 DataNode 上的文件(有几个副本就有几个文件)。一般一个 DataNode 对应服务器上的一块硬盘。一台服务器上有多个 DataNode。服务器(Server)的上层是机柜(Rack)、一排机柜(Row)和数据中心(DataCenter)。

五、自动化扩容和再平衡

扩容分为存储容量不足进行扩容和请求流量过载进行的扩容。由于容量不足的扩容后无需再平衡,只有请求流量大扩容后需要做数据再平衡。再平衡是按照容灾副本数等策略进行的,按照策略添加的 Datanode 会自动注册到 Master 上,Master 按照预定的规则进行协调再平衡。


两种扩容情况如下:



六、自动化副本修复补齐

一定规模的集群故障可能会变的比较频繁,在我们的系统中故障很大程度上意味着数据副本的丢失,人工补齐数据副本工作量较大,因此自动化补齐副本就成了一个比较重要的功能。自动化补齐副本是靠 Master 发现副本缺失和协调补齐的。在补齐的过程中数据副本都会变成只读。过程如下图:



整个自动化副本补齐如下图所示:



由于硬盘故障,数据节点 2 和 3 上的 Volume 3 和 6 副本丢失,自动补齐自动把这两个副本补齐到数据节点 4 和 5 上,并加入到集群中。

小结

到目前为止,NebulasFs 在内部已经使用了近一年的时间。除此之外 NebulasFs 还做为后端存储为另一个对象存储(AWS S3 协议)提供服务以存储大文件。


伴随着业务的不断接入,NebulasFs 也会不断完善,为业务增长提供更好的保障。


本文转载自公众号 360 云计算(ID:hulktalk)


原文链接


https://mp.weixin.qq.com/s?__biz=MzU4ODgyMDI0Mg==&mid=2247486588&idx=1&sn=1b63e9768980444aea29336a4a689ac7&chksm=fdd7b601caa03f172cba2cbcb8e1d0dc33705c7fee7ee1196baf38fdb2cc3599fc352388ced6&scene=27#wechat_redirect


2019-07-02 08:005363

评论

发布
暂无评论
发现更多内容

疑似45亿条递信息泄露,“三类主体”如何应对?

极盾科技

数据安全

FL Studio最新发布21中文正式版本下载

茶色酒

FL Studio 21

在线头脑风暴软件Mural及其竞品分析

hongfei

思维导图 工具软件 头脑风暴

前端标准化之旅

京东科技开发者

前端 代码规范 京东云 京东技术

开学季,5门优选好课助你在新学期狂飙!

博文视点Broadview

ChatGPT风口下的技术“狂飙”,天翼云荣登ZeroCLUE榜首

天翼云开发者社区

在统信UOS上二进制安装GreatSQL

GreatSQL

MySQL UOS 统信 greatsql greatsql社区

vivo版本发布平台:带宽智能调控优化实践-平台产品系列03

vivo互联网技术

版本发布 CDN带宽

搞懂Druid之连接创建和销毁

小小怪下士

Java 程序员 后端 Druid

ModStartBlog v6.7.0 后台管理优化,页面宽度调整

ModStart

快速制作一个chrome插件

JYeontu

chrome Vue chrome扩展 Chrome插件

Prompt Learning: ChatGPT也在用的NLP新范式

Baihai IDP

人工智能 自然语言处理 nlp ChatGPT 企业号 2 月 PK 榜

文盘Rust -- 本地库引发的依赖冲突

京东科技开发者

后端 Clickhouse 本地计算 rust语言 企业号 2 月 PK 榜

瓴羊Quick BI为企业决策者提供可视化分析服务

小偏执o

统一观测丨使用 Prometheus 监控云原生网关,我们该关注哪些指标?

阿里巴巴云原生

阿里云 云原生 Prometheus 云原生网关

责任链和策略设计模式-基于Java编程语言

京东科技开发者

Java spring 代码规范 京东云 京东技术

unittest使用parameterized参数化后如何调用添加到测试套件中

Python 单元测试 自动化测试 unittest 测试套件

关于微服务架构的思考

HummerCloud

微服务 云原生

对比开源丨Prometheus 服务多场景存储压测全解析

阿里巴巴云原生

阿里云 开源 云原生 Prometheus

Python设置显示屏分辨率

Python 分辨率

擅用瓴羊Quick BI报表分析工具,数据分析事半功倍

夏日星河

瓴羊Quick BI即席分析工具:创设数据分析捷径

巷子

会声会影2023官方正式版本功能介绍

茶色酒

会声会影2023

面试官:限流算法有哪些?

王磊

java面试

吃透阿里2023版Java性能优化小册后,我让公司系统性能提升了200%

程序员小毕

数据库 程序员 JVM 架构师 Java性能优化

「读源码」为什么注册路由时没有传入上下文,在接口方法中却能取到?

王中阳Go

Go golang 高效工作 学习方法 程序员

假如面试官问你Babel的原理该怎么回答

loveX001

JavaScript

ChatGPT入门案例|商务智能对话客服(三)| 社区征文

TiAmo

openai ChatGPT

迷恋管理是一种病

虎妞先生

Percona 8.0.30中show engine innodb status导致coredump排查及分析

GreatSQL

MySQL MySQL 高可用 :MySQL 数据库 greatsql greatsql社区

最初设计时就会避开钽电容,这是为什么呢?三大理由告诉你原因

元器件秋姐

元器件 电容 钽电容

360自研分布式海量小文件存储系统的设计与实现_数据库_冯培源_InfoQ精选文章