写点什么

阿里统一调度系统 Sigma : 策略与算法

2019 年 8 月 29 日

阿里统一调度系统Sigma : 策略与算法

QCon上海2018大会上,陈杰讲师做了《阿里统一调度系统 Sigma : 策略与算法》主题演讲,主要内容如下。


演讲简介


阿里巴巴的系统在支撑双十一过程中,面临的 2 个难题是资源和应用的管理和运维问题,双十一峰值的本质是用有限的资源成本最大化提升用户体验和集群吞吐能力。应用业务系统资源申请量和使用量之间差距巨大,不同的机器的资源使用率差距较大,碎片的存在也导致了分配率不高,应用之间的干扰程度不一,给应用的 SLO 保证带来了挑战。本分享将介绍阿里的统一调度系统 sigma 是如何通过策略和算法在成本,性能,效率找到平衡,以及未来智能化调度上会如何发展。


听众受益

  1. 了解大规模集群资源调度中碰到的一些问题和挑战。

  2. 了解阿里在解决这些问题上面是如何平衡成本和稳定性。

  3. 了解阿里调度器的关键技术、以及后续如何发展。


讲师介绍


陈杰


阿里巴巴 技术专家


2011 年加入阿里,早期参与阿里搜索引擎统一运维平台的建设以及负责一淘搜索引擎的运维;2013 年参与搜索调度平台的创建和建设;2015 年开始推动搜索的容器化以及 docker 化,2016 年开始搜索的资源池统一和混部;2017 年开始参与阿里统一调度平台的共建,并负责调度器的设计和研发。2018 年开始在阿里推 cpushare,资源画像等,并进一步通过算法以及混部提升资源利用率。












完整演讲 PPT 下载链接


https://qcon.infoq.cn/2018/shanghai/schedule


2019 年 8 月 29 日 12:032291

评论

发布
暂无评论
  • 搭建大规模高性能的时间序列大数据平台

    演讲嘉宾 孟晓桥,Pinterest监控组经理。 内容介绍 基于时间序列的大数据平台是现代智能监控系统的核心。当系统的规模达到一定量级时,构建基于时间序列的大数据平台需要解决四个挑战:高数据吞吐量,数据查询的高度实时性,成本控制和用户对系统的滥用导致的对系统稳定性的挑战。在演讲中,我将分享Pinterest监控组应对这四个挑战的经验。 演讲大纲 介绍基于时间序列的大数据平台的应用; 时间序列的大数据平台的基本架构; 四个挑战以及应对方法; 总结。

    2018 年 9 月 12 日

  • 分布式调度架构之单体调度:物质文明、精神文明一手抓

    今天,我以Borg为例,与你讲述了单体调度架构的设计及调度算法。

    2019 年 10 月 16 日

  • 阿里跨境业务动态广告算法迭代

    演讲嘉宾 孟晓楠,阿里巴巴国际技术事业部高级算法专家。 内容介绍 搜索广告系统是一个三方博弈的过程,其参与方包括网站访问者、卖家(广告提供商)和平台。作为平台方,我们要权衡三方的利益,同时满足搜索体验、卖家ROI和平台的变现能力。我们主要探索搜索广告中RPM最大化的理论和实践,提出了一种新的离线模型评估指标SAUC(Soft AUC),并在实际项目应用中取得显著的业务结果。 演讲大纲 预算约束下的广告消耗预估研究; 搜索广告中RPM最大化的理论和实践探索; 基于动态广告位的全页面优化。

    2018 年 9 月 12 日

  • 筹备半年时间,四面阿里终于如愿拿到 P7 级 offer【Java 岗】。

    每个程序员都有一个大厂的梦,而互联网大厂首当其冲自然是阿里巴巴最吃香,今天小编就来分享一个小伙进阿里巴巴的面经!

    2020 年 9 月 8 日

  • 基于区块链服务构建企业区块链业务系统的实践分享与探讨

    演讲嘉宾 余珊,阿里云区块链技术负责人, 阿里巴巴高级技术专家。 内容介绍 如果说大数据是生产资料、云计算和 AI 是生产工具的创新的话,那么区块链将会带来的是生产关系的变革。与此同时,区块链的技术和商业落地也将是一个不断演进和成熟的长期过程。本演讲将从多个维度分享和探讨阿里云区块链团队在构建企业级区块链业务系统方面的实践经验,包括分析总结企业用户对区块链的多层次需求、构建出以区块链服务为核心的区块链产品能力体系;企业采纳和落地区块链需要考虑的问题归纳和分析;如何为企业最为关切的安全合规需求提供全方位的区块链安全治理体系;基于区块链进行企业应用开发的几种典型模式以及使用场景分析;区块链系统和数据上云迁移、数据管理和运维等方面的实战经验、最佳实践分享等等。

    2018 年 9 月 12 日

  • 演讲回顾:阿里云存储技术的演进,以及云服务用例最佳实践

    2013年4月的QCon北京会场上,阿里云计算产品总监倪浩带来了主题为《阿里云计算的实践》的分享。在分享中,倪浩介绍了阿里云的服务体系,技术路线的选择,着重介绍了弹性计算和存储技术的演进,并且在最后介绍了使用阿里云服务的一些最佳实践。

  • 不断超越的调度系统:如何撑住 9 年双 11 交易峰值 800 倍增长

    本文转载自技术琐话公众号

  • 列举出常见的 Java 面试题 100+,我靠这个在十月拿到了阿里的 offer

    风萧萧兮易水寒,九月下旬我像个壮士一样奔赴阿里面试,其中经历过+HR面一共4面,总算在十月初拿到了阿里的offer,在这边也把阿里的面试题结合一些我准备的备考面试题分享出来,希望能对想要进阿里的小伙伴们一些帮助!

    2020 年 12 月 19 日

  • 面向容器技术资源调度关键技术对比

    本文以资源分配理念:拍卖、预算、抢占出发,引出Borg、Omega、Mesos、Kubernetes架构、数据、API的特点比较。然后梳理资源共享各种不同共享形式的内容,接着对比任务类型,最后回到资源利用率和基于数据预测角度,看相关系统是如何运用的和实现各自场景目标的。最后给出阿里巴巴电商在线服务资源调度器Zeus关键技术内容。

  • 阿里云技术探秘之旅:云安全的架构设计与实践

    随着云计算的快速发展,为了 让更多的开发者深入了解使用云技术,也让IT从业者更好地支持自身的业务的发展,在阿里云成立五周年之际,阿里云技术公开课“阿里云技术探秘之旅”正式启动。本期公开课我们邀请到阿里云飞天系统两位资深安全技术专家针对云计算安全沙箱和安全访问控制进行分享,并就参会者所关注的问题在 OpenSpace环节进行深入探讨。

  • 阿里统一调度系统 Sigma : 策略与算法

    演讲嘉宾陈杰,阿里巴巴技术专家内容介绍阿里巴巴的系统在支撑双十一过程中,面临的2个难题是资源和应用的管理和运维问题,双十一峰值的本质是用有限的资源成本最大化提升用户体验和集群吞吐能力。应用业务系统资源申请量和使用量之间差距巨大,不同的机器的资源使用率差距较大,碎片的存在也导致了分配率不高,应用之间的干扰程度不一,给应用的SLO保证带来了挑战。本分享将介绍阿里的统一调度系统sigma是如何通过策略和算法在成本,性能,效率找到平衡,以及未来智能化调度上会如何发展。内容大纲 了解大规模集群资源调度中碰到的一些问题和挑战; 了解阿里在解决这些问题上面是如何平衡成本和稳定性; 了解阿里调度器的关键技术、以及后续如何发展。

    2018 年 11 月 9 日

  • OpenKruise v0.7.0 版本发布:新增周期任务分发控制器

    OpenKruise是阿里云开源的大规模应用自动化管理引擎,在功能上对标了Kubernetes原生的Deployment/StatefulSet等控制器,但OpenKruise提供了更多的增强功能,如:优雅原地升级、发布优先级/打散策略等,这些都是经历了阿里超大规模应用场景打磨出的核心能力。

    2020 年 12 月 18 日

  • 阿里 2B 电商核心问题以及算法建模

    智能文案技术体系、构建了搜索和广告一体化运筹策略,推进业务从千亿规模向万亿规模的迅速发展。本次分享重点剖析算法在构建这一些列技术体系过程中遇到的挑战,以及对应的思考、设计、落地方案。

  • Volcano 1.0: 分布式调度系统漫谈

    本文介绍华为Volcano 1.0分布式调度。

  • Google 效能工具的实践之路

    随着网络的飞速发展,大的网络环境越来越好,但是通过调研我们发现网站性能越来越差。如何通过真实用户体验来定义网站性能指标显得十分重要,本次主题将会分享 Google 性能工具如何定义效能指标。 同时,对于网络环境或硬件条件不佳的用户,开发人员通常使用不同装置基准(“桌面”“移动”)建构组件和路由。因为用户所处的环境通常更加细微,如:CPU 速度、网络速度变化、内存大小,所以常用的构建组建显得不符合时宜。那我们如何通过网络平台可用的信号来迅速满足客户的需求?希望本次分享能给你带来一些参考。讲师简介廖凯明,谷歌移动技术解决方案顾问,关注前端技术最新动态,为大型合作伙伴提供移动技术解决方案及推广移动技术(包含移动 Web )。

    2020 年 1 月 20 日

  • 三年 Java 开发经验,裸辞之后筹备半年时间,四面阿里终于如愿拿到 P7 级 offer【Java 岗】。

    每个程序员都有一个大厂的梦,而互联网大厂首当其冲自然是阿里巴巴最吃香,今天小编就来分享一个小伙进阿里巴巴的面经!

    2020 年 11 月 28 日

  • 这是什么神仙面试宝典?半月看完 25 大专题,居然斩获阿里 P7offer

    这是什么神仙面试宝典?半月看完25大专题,居然斩获阿里P7offer???????

    2020 年 7 月 6 日

  • 阿里内部“新鲜出炉”手慢无!首发面试终极指南 V3.0,符合一线大厂面试知识点 + 面试题

    进阿里就像是程序员们的一道“必修课”,里面的人拼了命的想出来,外面的人拼了命的想进去!阿里就像一个大熔炉,重铸、再造、升级、更新,每年给社会输送了大量的IT的精英!如果你也有一个“阿里梦的”话,不妨接着往下看!

    2020 年 11 月 21 日

  • 阿里内推面试,挂在了一道简单的问题上…

    但如果我作为面试官,我最想听到的就是:非公平锁有两次抢锁机会,但是一旦进入队列,就永远排队。“一朝排队,永远排队。

    2020 年 7 月 6 日

发现更多内容

万字长文 | 23 个问题 TCP 疑难杂症全解析

yes的练级攻略

TCP 计算机网络

用 Python 实现一个简易版的 Pong 游戏 (二)

Matrix Chan

Python Python Turtle Python 游戏编程

嘿,我想要寄一封挂号信,收件时间是 6 年后,标题是: 让 6 年后的我,加倍奉还。

叶小鍵

学习 成功学 心理学 李笑来

抽象可能从未停止过

架构师修行之路

系统设计 抽象 抽象思维

甲方日常 9

句子

Java 运维 工作 随笔杂谈 日常

敏捷教练的软技能

技术管理Jo

软技能 敏捷教练 引导者

通证与通证经济你真的理解吗

CECBC区块链专委会

区块链 通证经济

第三周作业

Vincent

极客大学

架构师训练营-week13-作业

晓-Michelle

极客大学架构师训练营

阿里内部超流行的“SpringBoot+微服务指南”,理论与实战双管齐下

Java成神之路

Java 编程 程序员 Spring Cloud Spring Boot 2

第4周作业

Vincent

极客时间 极客大学

第4周总结

Vincent

极客时间 极客大学

19.解决 Flink 升级1.11 报错 No ExecutorFactory found to execute the application

小知识点

scala 大数据 flink

你认为高级程序员应该具备那些技术技能树呢?

雨夜的博客

技术技能树 技术书籍

JavaScript七大语言类型你知多少?

Walker

Java 前端 编程语言

【原创】经验分享:一个Content-Length引发的血案(almost....)

一枝花算不算浪漫

解Bug之路-串包Bug

无毁的湖光

redis socket Java 分布式

太牛了,这份神仙级面试笔记把所有Java知识面试题都详解出来了

Java成神之路

Java redis 编程 程序员 面试

面试不会微服务没关系,跟着我4天学会微服务!

小Q

Java spring 架构 分布式 微服务

面试官:TCP/IP 协议到底在讲什么?想彻底搞懂TCP协议:还得从 TCP 三次握手四次挥手说起

云流

编程 程序员 互联网 计算机网络 面试求职

USDT承兑商币支付系统搭建,USDT跑分承兑商app

13823153121

读《阿里工程师的自我修养》的读后感

雨夜的博客

程序员人生 自我管理 自我思考 程序员成长

第三周学习总结

Vincent

极客大学

Spring 5 中文解析测试篇-集成测试之概要和注解

青年IT男

单元测试 Spring5

java安全编码指南之:表达式规则

程序那些事

java安全编码 java安全 安全编码规则

数据质量管理工具的意义和定位

苏槐

数据治理 数据质量管理 数据质量平台

干货!如何平稳用户无感知的完成系统重构升级

X先生

架构 运维 后台

就靠这几段代码,带你玩转rpc通信协议,不信你学不明白

小Q

Java 架构 面试 RPC 网络

week13 作业

Geek_2e7dd7

oeasy 教您玩转 linux 010207 黑客帝国 matrix

o

week 13 学习总结

Geek_2e7dd7

微服务架构下如何保证事务的一致性

微服务架构下如何保证事务的一致性

阿里统一调度系统Sigma : 策略与算法-InfoQ