今年三月,Netflix 在博客中推出了一系列文章,介绍了该公司设计的一个运维指标处理平台,名为 Mantis 。在这个平台上可进行细粒度、设备级别的事件推送,并捕获运维相关的指标。它使得 Netflix 能够构建具备极细粒度、实时的数据观察应用,通过这些应用能够深刻地了解Netflix 终端用户的设备与AWS 服务之间的互操作,这些功能包括运维方面的仪表板,以及通过 SPS 的分析实现的单个节目级别的警告功能。
Netflix 现有的服务级别监控系统并不适用于理解与诊断在具体某个特定用户、设备和娱乐节目的环境中,与设备级别行为相关的问题。这些用户、设备与节目的组合形成了一种资产,而数据的捕获、转换、报表生成以及警告就是基于这些资产进行的。由 Mantis 所驱动的异常检测功能让工程人员能够跟踪每种资产的各种事件,使他们能够快速地对生产环境中的问题进行响应,并得知受到影响的用户群体。而这些能力是作用在一个高处理量、高基数的实时流处理以及批量数据处理的环境中实现的。
Mantis 与 Netflix 现有的基础设施实现了良好的集成,允许开发者及其应用提交用于生成事件、处理事件和查询事件的各种作业。这些事件来自于约20 种不同的数据源,包括 Zuul 和 API 等服务、个性化和点播服务、以及设备日志数据等等。事件生成者与调用者之间的解耦实现了这两者之间的隔离,为生产环境中的异常检测和修复提供了更大的灵活性。
该系统的架构基于Apache Mesos 设计,它提供了一种处于应用开发者与 EC2 服务器集群之间的抽象层,作为流处理作业计算资源的共享池。应用开发者可通过一系列 API 或某个图形用户界面对作业进行配置,并可在之后对作业的配置进行编辑,以及查询当前各项指标。应用开发者可以基于这些数据构建自己的应用程序,同时又与Mantis 的内部实现细节保持了解耦。
Mantis 作业具备不同的消息保证级别,遵循 Kafka语义,例如“最多一次”可保证传递,以及“至少一次”可保证传递。曾有人向Mantis 的工程师 Neeraj Joshi 询问 Mantis 为何不使用其他架构方案,包括 Spark Streaming 。Joshi 指出,
基于 Kafka 的实现对于资源的调度具备更多的控制能力,因此我们可以选择更智能的分配方式,例如 binpack 算法等等(同时也让我们能够对作业的处理进行扩展)。
Mantis 的设计中包括一个 master/agent 的集群模型,并使用了 Frenzo 。Frenzo 是一个资源管理器,它最近刚刚成为一个开源项目,作为一个 Java 的调度器库,它可以通过在 Mesos 工作集群中新增与删除实例的方式实现自动伸缩。伸缩的标准取决于资源使用率指标、作业的调度时间,以及通过资源使用率仪表板对作业进行的人工操作等等。Fenzo 可基于作业调度时间以及当前的资源使用情况动态地分配EC2 实例。作业管理器可提供元数据保留、SLA、部署位置、作业拓扑结构以及生命周期等信息。
Mantis 能够执行的任务包括流处理、具有背压感知性的非阻塞性作业、数据转换以及异步结果存储。对于基本的转换 / 聚合等用例,作业可以定义为一个单独的阶段。而对于高处理量、高基数的事件流,也可以将作业定义为多个阶段进行分片与处理等操作。
Netflix 的工程师 Nick Mahilani 提到了 Mantis 的作业定制化、用户自定义的作业以及内部的实现细节:
系统提供了一些可重用的作业,用户在提交这些作业时能够传递不同的参数集。举例来说,某些作业通过不同参数可连接至不同的来源、根据不同的 key 进行分组、或基于阀值参数进行异常检测。某些作业还能够接受被动态编译为模板作业的参数……
用户可自行开发以作业方式进行提交的新应用,他们可专注于作业本身的编写,而无需考虑扩展或资源设置方面的问题。在实现 Mantis 作业时需要引入 Mantis 运行时库,并实现某个 Java 接口。该作业将被传递一个 RxJava Observable
对象,作业的开发者可通过 Rx 操作符对其进行转换。作业的执行结果可传输至管道的下一个阶段,也可让其他作业使用经过转换的流。在部署作业时,用户需要将作业打包为一个.zip 文件,随后通过 Mantis 集群进行分发。
据报告显示,在处理运维用例时,Mantis 能够充分利用服务器上的网卡,同时保持很少的 CPU 占用。
查看英文原文: Operational Data Stream and Batch Processing at Netflix with Mantis
评论