为什么这么设计(Why’s THE Design)是一系列关于计算机领域中程序设计决策的文章,我们在这个系列的每一篇文章中都会提出一个具体的问题并从不同的角度讨论这种设计的优缺点、对具体实现造成的影响。如果你有想要了解的问题,可以在文章下面留言。
虽然我们经常将 Redis 看做一个纯内存的键值存储系统,但是我们也会用到它的持久化功能,RDB 和 AOF 就是 Redis 为我们提供的两种持久化工具,其中 RDB 就是 Redis 的数据快照,我们在这篇文章想要分析 Redis 为什么在对数据进行快照持久化时会需要使用子进程,而不是将内存中的数据结构直接导出到磁盘上进行存储。
概述
在具体分析今天的问题之前,我们首先需要了解 Redis 的持久化存储机制 RDB 究竟是什么,RDB 会每隔一段时间中对 Redis 服务中当下的数据集进行快照,除了 Redis 的配置文件可以对快照的间隔进行设置之外,Redis 客户端还同时提供两个命令来生成 RDB 存储文件,也就是 SAVE
和 BGSAVE
,通过命令的名字我们就能猜出这两个命令的区别。
其中 SAVE
命令在执行时会直接阻塞当前的线程,由于 Redis 是 单线程 的,所以 SAVE
命令会直接阻塞来自客户端的所有其他请求,这在很多时候对于需要提供较强可用性保证的 Redis 服务都是无法接受的。
我们往往需要 BGSAVE
命令在后台生成 Redis 全部数据对应的 RDB 文件,当我们使用 BGSAVE
命令时,Redis 会立刻 fork
出一个子进程,子进程会执行『将内存中的数据以 RDB 格式保存到磁盘中』这一过程,而 Redis 服务在 BGSAVE
工作期间仍然可以处理来自客户端的请求。
rdbSaveBackground
就是用来处理在后台将数据保存到磁盘上的函数:
C
Redis 服务器会在触发 BGSAVE
时调用 redisFork
函数来创建子进程并调用 rdbSave
在子进程中对数据进行持久化,我们在这里虽然省略了函数中的一些内容,但是整体的结构还是非常清晰的,感兴趣的读者可以在点击上面的链接了解整个函数的实现。
使用 fork
的目的最终一定是为了不阻塞主进程来提升 Redis 服务的可用性,但是到了这里我们其实能够发现两个问题:
为什么
fork
之后的子进程能够获取父进程内存中的数据?fork
函数是否会带来额外的性能开销,这些开销我们怎么样才可以避免?
既然 Redis 选择使用了 fork
的方式来解决快照持久化的问题,那就说明这两个问题已经有了答案,首先 fork
之后的子进程是可以获取父进程内存中的数据的,而 fork
带来的额外性能开销相比阻塞主线程也一定是可以接受的,只有同时具备这两点,Redis 最终才会选择这样的方案。
设计
为了分析上一节提出的两个问题,我们在这里需要了解以下的这些内容,这些内容是 Redis 服务器使用 fork
函数的前提条件,也是最终促使它选择这种实现方式的关键:
通过
fork
生成的父子进程会共享包括内存空间在内的资源;fork
函数并不会带来明显的性能开销,尤其是对内存进行大量的拷贝,它能通过写时拷贝将拷贝内存这一工作推迟到真正需要的时候;
本文转载自 Draveness 技术博客。
原文链接:https://draveness.me/whys-the-design-redis-bgsave-fork
评论