写点什么

使用 Apache Mesos 打造分布式资源调度系统

  • 2016-08-18
  • 本文字数:2847 字

    阅读完需:约 9 分钟

Netflix 使用 Apache Mesos 运行了一系列批处理、流式处理,以及服务类型的工作负载。两年多来,我们创建了层出不穷的用例,例如实时异常检测、批处理作业的训练和模型构建、机器学习编排,以及基于 Node.js 的微服务。最近发布的 Apache Mesos 1.0 意味着这项技术已经成熟,相比我们首次使用该服务时已经有了巨大的改进。

我们最初使用 Apache Mesos 的动力主要在于该技术能够将来自同一个 EC2 实例的资源更为细化地分配给不同规模的任务。如果不使用 Mesos 或其他类似的资源管理器,将无法为数量日益增加的实例进行更细化的分配,导致无法获得令人满意的利用率,或只能自行开发类似于 Mesos 的技术,至少也要开发出其中的部分功能。

越来越多的流式处理和批处理作业开始使用容器,这也推动了基于 Mesos 的资源调度技术的使用。最近开发者已经可以从基于 Docker 的容器通过 Mesos 集群获得一系列服务类型的工作负载。本文将概括介绍 Netflix 工程团队使用 Apache Mesos 打造的一些项目。我们将介绍该技术所满足的不同用例,以及每个用例是如何高效使用这种技术的。有关每个项目的进一步细节请参阅下文给出的博文链接。

使用 Apache Mesos 打造云端原生调度机制

为了从不同 EC2 实例为任务分配资源,我们需要一种能对可用资源进行调度,并能在分布式 EC2 实例上启动和监控任务的资源管理器。Apache Mesos 可将要使用集群的“框架”的资源分配,与框架任务的资源调度区分处理。当 Mesos 确定要将多少资源分配给框架后,将由框架的调度器决定在什么时候将哪些资源分配给哪个任务。这样的调度器是一种相当简单的 API,因此也能更专注于调度逻辑,并对分布式系统中不可避免出现的故障做出回应。借此用户可以针对不同用例编写不同调度器,不像 Mesos 那样为所有用例使用一个统一的调度器。下图来自 Mesos 文档,展示了“框架 1”收到“代理 1”的指令启动两个任务的过程。

一段时间来,Mesos 社区已经出现了多种针对不同用例的调度器,并为用户提供了相应的 API。

Netflix 在 AWS EC2 弹性云中运行了多个微服务。在原生云环境中运维 Mesos 集群要求我们必须确保除了与数据中心内部运维类似的任务外,调度器还能同时处理另外两方面内容:运行任务的代理寿命更短暂,以及 Mesos 代理集群具备根据需求变化自动伸缩的能力。另外我们所处理的用例需要实现一种比 First fit 类型的分配更先进的资源调度机制。例如按照 CPU、内存,以及网络带宽的用量将多个任务装箱(Bin packing)到不同代理,借此实现资源碎片最小化。装箱还可以帮助我们释放尽可能多的代理,在不影响运行中任务的前提下终止空闲代理,让代理集群的扩张速度放缓。

为找出现有调度器在此类能力方面的缺失,去年我们开发了一种名为 Fenzo 的调度库。Fenzo 可以根据需求自动缩放代理集群,并根据由健康标准(Fitness criteria)和约束组成的多种调度目标为任务分配资源。这些健康标准和约束可通过插件进行扩展,并具备少量内建的通用实现,例如为了实现高可用跨越 EC2 可用区对作业进行任务装箱和分散。JVM 上运行的任何 Mesos 框架都可使用 Fenzo Java 库。

Netflix 对 Mesos 的运用

目前我们通过 Apache Mesos 集群运行了三个项目。

Mantis

Mantis 是一种以原生云服务方式运行的反应式流处理平台,主要侧重于运维数据流的处理。Mantis 包含多种不同用例,例如实时仪表盘、预警、异常检测、衡量指标生成,以及流数据的即席交互式探索。我们使用 Mantis 主要是为了简化团队成员访问实时事件和以此为基础构建的计费应用程序的过程。目前 Mantis 的事件流处理能力已高达每秒 800 万条事件,可不间断运行数百个流处理作业。我们有一个此类作业主要侧重于视频内容的处理,可以针对内容提供细化的洞察,例如巴西地区 iPad 上播放纸牌屋第四季第一集时遇到了问题。这一功能需要不间断追踪数百万不同的数据排列组合方式。

Mantis 平台包含一个主(Master)集群和一个代理(Agent)集群。用户可以将流处理应用程序以作业的形式提交,并在代理集群内一个或多个工作进程(Worker)上运行。主集群会使用 Apache Mesos 中包含的 Fenzo 调度库优化作业工作进程的资源分配。这种分配操作的目标之一在于将需要持续不间断运行的流处理作业与只需要短时间运行的交互式作业分布到不同代理上,这样当短时间运行的作业运行完毕后,即可收缩代理集群的规模。下图展示了 Mantis 的体系结构。来自不同作业的工作进程可以通过基于 Cgroups 的资源隔离机制在同一个代理上运行。

Titus

Titus 是一种 Docker 容器作业管理和执行平台。最初 Titus 主要用于实现包含算法训练(类似于视频推荐、A/B 测试单元体分析等任务)的批处理作业,以及需要每小时运行一次的即席报表和分析作业。最近为了提供一致的本地开发体验以及实现更细化的资源管理,Titus 开始为服务类型的作业(Netflix 微服务)提供支持。Titus 首个服务类型的用途是使用服务器端的 NodeJS 进行 API 的重构

上述 Titus 体系结构示意图展示了使用 Fenzo 从 Mesos 代理分配资源的主节点。Titus 可与 Netflix 微服务和 AWS 生态系统实现紧密集成,包括与服务发现、基于软件的负载平衡、监控,以及我们的 CI/CD 管线、Spinnaker 等技术进行集成。在 Mesos 中编写自定义执行器的能力使得我们能够轻松地对容器运行时进行优化,使其与生态系统的其他部分更为匹配。

Meson

Meson 是一种通用的工作流编排和调度框架,主要可用于管理机器学习管线。

Meson 主要适用于对 CPU、内存,以及磁盘空间等资源有着不同要求的作业所组成的异构环境。它可以支持通过一个共享集群运行 Spark 作业和其他批处理作业。在基于 Cgroups 的隔离机制帮助下,代理上的不同任务将使用相互隔离的资源运行。Meson 的调度器会根据图表(Graph)评估任务的就绪情况,并通过 Mesos 提供的资源启动已经就绪的任务。失败处理措施包括重新启动失败的任务,以及自动终止被确定为已经出错的任务。

上述示意图展示了 Meson 的体系结构。Meson 团队目前正在着手使用 Fenzo 调度库增强其调度能力。

Apache Mesos 的继续完善

在我们持续完善 Mantis、Titus 和 Meson 项目的过程中,Apache Mesos 提供了稳定、可靠、可伸缩的资源管理平台。我们通过开源的 Fenzo 以及在 MesosCon 大会上分享创意等方式参与到了 Mesos 的社区贡献中。您可以在即将举办的 MesosCon Europe 2016 大会上与我们交流,或查看我们之前参与 2014 2015 年,以及今年上半年活动的总结(学到的经验 Meson )。

对于这些项目,我们的未来计划包括增加 SLA(服务级别协议,例如为服务和批处理形式的作业提供不同的容量担保),对代理和容器的安全加固,改善运维效率和能见度,以及对更广泛用例的支持。为了取得更长足的进展,目前我们正在围绕 Mesos、Fenzo 以及我们的框架开展一些非常激动人心的项目。

查看英文原文 Distributed Resource Scheduling with Apache Mesos


感谢陈兴璐对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ @丁晓昀),微信(微信号: InfoQChina )关注我们。

2016-08-18 19:004587
用户头像

发布了 283 篇内容, 共 110.2 次阅读, 收获喜欢 62 次。

关注

评论

发布
暂无评论
发现更多内容

央国企“严选”!天翼云夺得IaaS+PaaS市场桂冠!

天翼云开发者社区

云计算 云服务 天翼云

重磅发布 | 末等调整和不胜任退出数智化解决方案

用友BIP

61支队伍入围!用友第六届企业数智化应用开发大赛决赛名单公布

新消费日报

机器学习与AI|如何利用数据科学优化库存周转率?

Altair RapidMiner

人工智能 数据分析 altair RapidMiner

Pytest-ordering:自定义 Pytest 测试用例执行顺序的指南

测吧(北京)科技有限公司

测试

90后斩获多家名企offer的小哥哥,做对了什么?

霍格沃兹测试开发学社

别再被多线程搞晕了!一篇文章轻松搞懂 Linux 多线程同步!

快乐非自愿限量之名

Linux 多线程

数字先锋| 小平台如何展现大智慧?快来一睹“遵”容!

天翼云开发者社区

云计算 云服务

从消息中间件架构发展趋势,探讨物联网平台如何支持亿级设备推送?

华为云开发者联盟

IoT Apache Pulsar 消息中间件 华为云IoTDA

Pytest 内置插件 Hook 体系:深入了解与实践

测吧(北京)科技有限公司

测试

Pytest 并行与分布式运行测试用例的实现与优化

测吧(北京)科技有限公司

测试

Netty 如何自动探测内存泄露的发生

不在线第一只蜗牛

Java 内存泄露 Netty

为什么真全闪分布式存储离不开 RoCE/RDMA 流控技术?

XSKY星辰天合

#分布式存储 流控技术

spring-关于组件的注入及获取流程

EquatorCoco

Java spring 后端

鸿蒙开发实战:灵活定制编译选项,打造高效应用

王二蛋和他的张大花

鸿蒙

鸿蒙开发实战:智能日志定位与高效调试技巧

王二蛋和他的张大花

鸿蒙

企业应推动数据全生命周期运营,充分释放数据价值

用友BIP

探索微店API接口:如何高效获取商品详情数据

代码忍者

API 接口 pinduoduo API

全链路压力测试:确保系统在高负载下的稳定性与响应能力

测吧(北京)科技有限公司

测试

ColPali: 基于 PaliGemma-3B 和 ColBERT 策略的视觉检索器

吴脑的键客

人工智能 搜索算法

威睿第100万台电驱产品下线,全速迈上新能源驱动发展新台阶

科技热闻

Robotaxi三国杀

脑洞汽车

AI

舞台已就位!坐等AI玩家集结!

天翼云开发者社区

云计算 AI 天翼云

TikTok矩阵怎么玩?

Ogcloud

云手机 tiktok云手机 tiktok运营 TikTok养号 tiktok矩阵

推理王者o1到底怎么落地?

脑极体

AI

鸿蒙开发实战:轻松配置多环境目录,实现高效应用部署

王二蛋和他的张大花

鸿蒙

2025世亚软博会(北京展)正式开启预定

AIOTE智博会

软件展会 软博会 世亚软博会 北京软博会

新业财税资档一体化:存量资产盘活就选用友BIP超级版

用友BIP

载誉而归!天翼云荣获第23届中国IT用户满意度大会多项殊荣

天翼云开发者社区

云计算 IT 云服务

全国数据标准化技术委员会成立,企业该对数据”下狠手”了

用友BIP

鸿蒙开发实战:深度解析网络管理技巧与实战应用

王二蛋和他的张大花

鸿蒙

使用Apache Mesos打造分布式资源调度系统_开源_Sharma Podila_InfoQ精选文章