写点什么

京东百万级调度系统 (Buffalo) 架构解密

  • 2024-09-25
    北京
  • 本文字数:3018 字

    阅读完需:约 10 分钟

大小:1.52M时长:08:52
京东百万级调度系统 (Buffalo) 架构解密

一、调度系统简介


Buffalo 调度系统是京东自主研发的分布式 DAG 作业调度系统,为京东的数据开发工程师、算法工程师、数据分析师等用户提供离线作业的编排与调试、监控运维、DAG 调度等功能。其目标是打造行业领先的稳定高效、产品简洁高体验、任务监控全面、资源容器化、系统能力开放化的 ETL 调度系统。


京东调度系统的核心挑战包括:


  1. 业务复杂导致的依赖关系复杂:复杂的数据链路使得部分任务有数百甚至上千个上下游,层级多达数十层。跨天依赖、数据回刷、月度汇总等业务场景使任务间的依赖关系形成一个庞大且复杂的有向无环图(DAG)。

  2. 业务体量大且稳定性和性能要求高:当前平台拥有数十万任务,百万级依赖关系,日均百万级调度频次。任务关系复杂、执行量大,系统的任何细微异常都可能导致数据链路异常,核心数据受损,对调度系统的稳定性和性能提出了巨大挑战。

  3. 数据加工场景复杂需要支持丰富的调度能力:平台支持多个 BG 业务,涉及数据采集、计算、推送、转换等多种任务类型、多种执行方式、多种触发规则,以及任务间的数据传递、数据补录等场景,对系统功能的丰富度和灵活度提出了新的要求。

二、核心技术方案


为支撑灵活的业务加工和工作流编排,快速应对业务发展带来的任务量增长,并保障系统的稳定性,我们在易用性、稳定性和高性能方面做了很多优化。以下将从这三个方面详细介绍。

1. 实体和编排调度模型

a) 双层实体模型

采用主流的双层实体模型,包含两个核心概念:

  • Action(环节):最小粒度的执行单位,携带执行相关的信息,如脚本、参数、环境等。

  • Task(任务):由一个或多个环节和触发规则构成的 DAG,Task 之间也可以相互依赖,形成外层 DAG,实现双层调度。

相比单层实体模型,双层模型具有更强的编排能力和灵活性,同时对单个业务的整合和管理也更友好。

b) 基于实例的调度


任务定义是任务配置的载体,无状态、不可执行。当任务达到运行周期时,会产生相应周期的任务实例(实例化过程)。实例化时会根据任务的配置信息(环节、上游依赖、数据依赖、运行周期等)生成当前周期实例,实例是真正可执行并具有状态的对象。


基于实例的调度模式优点包括:

  • 周期稳定:每个周期都会有实例,不会出现周期缺失的情况,且每个周期的实例可独立操作。

  • 依赖明确:任务实例的依赖关系明确且可预期,可以快速追溯和修复问题。

c) 分类分级调度能力

平台提供任务分类分级管理和基于分级的调度能力,确保在资源紧张时优先保障重要业务。同时任务等级信息会传递到底层集群,底层计算集群增加相应保障策略,确保核心业务的稳定性。

2. 高可用架构

Buffalo 整体分为三层,每层具备高可用架构,确保系统的高可用和容灾能力:


  • Manager 管理层:提供任务创建、管理和运维功能,管理端无状态,可横向扩展。


  • 高可用 Scheduler:作为核心调度引擎,负责任务实例的生成和调度,采用多活+主备架构,保障任务执行的唯一性和高效性。多个 scheduler 会通过数据分片负载处理任务,同时对于任务状态消息进行幂等处理,其中资源调度模块采用主备模式,以便支撑灵活和高效的资源调度能力。当一个节点故障时,其他节点会监测到节点下线,并自动触发接管逻辑,将异常节点任务接管处理,保障故障节点上的任务执行不受影响。


  • 容错执行层:负责任务启动和执行,支持物理机和基于 K8s 的容器化资源,具备高可用特性和灵活的资源管理能力。


▪ 物理机:部署 worker(也称 TaskNode)长进程,任务以独立进程方式运行,多个 worker 构成节点组对(虚拟节点)外服务,避免单点故障问题。同时 worker 本身支持消息重传、cgroup 资源隔离等高可用特性。

▪ k8s 弹性资源:与原生 k8s 对接,任务以短周期 pod 方式执行,任务结束时 pod 销毁,天然具备高可用特性,同时具备更精细化的资源管理、差异化执行环境的动态构建能力。

3. 高性能

为应对任务量增长和业务复杂度提升,Buffalo 通过以下方式实现高容量、低延迟的编排和调度:

a) 水平扩展

调度引擎采用多活架构,通过数据哈希分片将任务负载分布到多台服务进行调度,保障任务执行的唯一性。

b) 事件驱动

相较传统的定时轮询方式,事件驱动模式在任务依赖条件变更时进行条件计算和校验,避免了遍历耗时和无用计算,提高整体处理性能。

c) 内存调度

前面提到 Buffalo 具备在物理机集群和 k8s 集群上启动任务执行的能力,所以需要具备这两种资源的管理和资源调度能力,资源调度的性能也是影响任务分发时效的关键部分。


调度引擎 namenode 采用的是多活的高可用架构,如果资源调度部分也采用该架构(如左图),那么涉及到同一资源的并发访问和修改的问题,进而引入分布式锁和外部存储,这样整体的性能很难达到理想的目标。


因此,我们在 namenode 多活架构的基础上,将资源调度部分做了一个主备架构的处理(如右图),会从多个 namenode 里选择一个作为主资源调度器,其他作为热备,所有 namenode 的任务资源请求都由主节点进行处理,这样主节点在内存中保存了所有的资源信息,资源调度过程在内存中就可进行,避免了分布式锁和对外部存储的依赖,性能有大幅提升。

d) 冷热数据分离

当系统中任务量较大,任务执行产生的实例数据会快速增长,buffalo 每日的实例数据增量超过百万,随着任务量的增长还会持续增长,如果没有适当的方案来处理,数据库很难支撑如此快速的数据增长。

调度系统中的任务有个明显特征 - 定时,就是任务会定时执行,执行完成后的实例,除人为干预外其状态不会再自动发生变更,这部分数据一般只会做查询,所以这部分数据可以做独立存储。我们将状态还会发生变更或频繁操作的数据称作热数据,将这些已经执行结束且基本只有查询需求的数据称作冷数据,并将冷数据单独存储。


当冷热数据分离后,有三个核心问题需要解决:


1)数据结转

任务实例执行完成,处于结束状态的实例都可以被结转,目前采用定时结转的策略。为避免冷数据单表数据量过大,结转规则可以按照季度、月或则更小周期进行拆分存储。


2) 数据定位

当数据结转到冷数据表后,这些实例的状态不会发生变更,单可能还会被未执行的实例所依赖,用户也可能会对这些实例做检索操作,所以这些实例需要能从冷数据表中快速被定位。


索引表:数据结转到冷数据表时,会根据冷数据表的分区粒度,在索引表记录各冷分区表中的数据范围,如计划运行时间在 2023-01-01 至 2023-03-31 的数据存储在 2023Q1 分区表,这样基于时间的范围查询场景,可快速定位


主键定位:为了能够根据任务实例主键快速定位,我们参照雪花算法,做了一定的调整,根据任务实例计划运行时间、当前时间、以及 namenode id 等信息,构建顺序增长的 long 型 id,当给定主键,可从中解析计划运行时间,从而快速定位所在分区。


3)冷数据操作

冷数据被操作的几率比较低,但也存在操作的可能性,比如历史实例的重跑、强制成功等操作。为了保持调度引擎架构的简单性,所有相关的任务执行的处理,都是基于当前表(热表),所以为了能保障被结转的冷数据和热数据一样支持所有操作,冷数据被操作时会从冷数据表恢复至热数据表,从而实现与热数据相同的效果。

4. 开放能力

  • 开放 API:通过 HTTP 协议提供任务配置管理、任务实例操作、状态查询和日志查询等能力。

  • 开放事件:基于 JDQ 异步消息方式,将任务状态和实例状态开放给业务系统,实现状态变更的及时同步。

三、未来规划


Buffalo 调度系统将持续优化和迭代升级,提供更好的用户体验和极致性能,包括容器化能力、插件化扩展能力、开放能力和精细化资源管理能力。希望大家提出更多的想法和建议,共同打造稳定、高效、易用的调度平台。

2024-09-25 18:4612655

评论 2 条评论

发布
用户头像
InofQ 不会也变成了标题党的天下吧,这篇文章是明显的标题党,请撤掉!
2024-10-08 10:04 · 辽宁
回复
用户头像
标题很吸引人,而内容则令人失望,没有应有的价值呈现出来!
2024-10-08 09:47 · 辽宁
回复
没有更多了
发现更多内容

LG的“卷轴”柔性屏,技术可期,前景未卜?

脑极体

华为云GaussDB(DWS)内存知识点,你知道吗?

华为云开发者联盟

数据库 大数据 数据 内存 华为云

Java字符串拼接,去首尾, 判空, 类型转换

狸猫换太子

Java 类型推断 字符串

厦门航空牵手阿里云打造航空业移动研发中台,研发效率提升50%

移动研发平台EMAS

设计模式

张明森

架构师第九周作业

傻傻的帅

架构师 课程作业

无接触,云办公!5天完成手机淘宝新版本迭代,揭秘阿里工程师协同研发“神器”

移动研发平台EMAS

iOS身份证号码识别

高丰

简述 JVM 垃圾回收原理

一叶知秋

分布式环境下,我想要一致性

架构师修行之路

分布式 分布式系统 架构师 CAP

week 9 作业

Geek_2e7dd7

数据库系统设计概述

码哥字节

数据库 redis mongodb elasticsearch 数据库设计

阿里云移动研发平台 EMAS 助力银行业打造测试中台,提升发版效能

移动研发平台EMAS

区块链标准化很重要吗?

CECBC

区块链 区块链规范

阿里云 EMAS HTTPDNS 联合函数计算重磅推出 SDNS 服务,三大能力获得突破

移动研发平台EMAS

全国首个市场监管区块链电子取证平台正式上线

CECBC

区块链

手把手教你实现自定义Spring Boot的 Starter

root

Java spring 程序员 Spring Boot starte

两万字长文50+张趣图带你领悟网络编程的内功心法

帅旋

网络协议 TCP/IP

将信将疑,将中台进行到底

郭华

原创 | 使用JPA实现DDD持久化-O与R:两个世界

编程道与术

Java hibernate DDD JDBC jpa

学编程没人带?推荐10个免费学编程的最佳网站给你

代码制造者

学习 编程 编译器、程序语言、CPU 编程网站

第九周作业

方堃

阿里云小程序云发布小程序跨平台开发框架,助力开发者一次开发,多端运行

移动研发平台EMAS

汇付天下与阿里云合作打造企业级移动中台,运营效率提升100%

移动研发平台EMAS

相聚“云”课堂,智微智能“双师课堂”促进优质教育资源共享

DT极客

redis-port支持前缀迁移

心平气和

redis redis-port

week 9 学习总结

Geek_2e7dd7

100% 展示 MySQL 语句执行的神器-Optimizer Trace

程序员历小冰

MySQL

多线程 & 并发架构

石刻掌纹

击破技术枷锁与认知迷雾 百度四大杀手锏开启新基建AI风暴

脑极体

BIGO 实时计算平台建设实践

Apache Flink

flink BIGO

京东百万级调度系统 (Buffalo) 架构解密_架构_京东零售技术_InfoQ精选文章