QCon北京「鸿蒙专场」火热来袭!即刻报名,与创新同行~ 了解详情
写点什么

不畏:智能调度的核心是对业务数据的价值挖掘和有效利用

  • 2018-09-30
  • 本文字数:2332 字

    阅读完需:约 8 分钟

据统计,2017 年的“双十一”,开场 28 秒,淘宝系交易额超 10 亿;2018 年,优酷直播了世界杯 64 场高清赛事,6 月 23 日,其移动端 DAU 破亿。这两个高并发场景,都是阿里云在保驾护航。InfoqQ 有幸请到了阿里视频云运维专家不畏,来聊一聊在业务请求量高峰阶段,调度策略如何进行分配优化,调度系统有哪些智能化运维的思考和实践。

 

InfoQ:阿里云现在有多少个 CDN 节点?带宽呢?

不畏:阿里云目前有 1500+ 的 CDN 节点,储备带宽超过 120TB,覆盖全球六大洲七十多个国家及国内主流运营商。

InfoQ:随着业务类型的快速变化,阿里云视频云调度系统是怎么演进的?

不畏:视频云的调度系统最早使用的是商业设备,在 2011 年开始走上自主研发的道路,2014 年 CDN 开始商业化对外售卖,调度系统为更好地服务商业用户,开始进行多终端的调度系统研发和全球化布局;2015 年阿里云商业 CDN 用户量井喷,业务形态发生了巨大变化,我们进行了调度系统的全盘自动化改造,正式告别人工时代;2017 年,精细化、多维度的自动资源规划、精准流控、主动链路探测等产品功能逐一上线,调度系统在流量规划的粒度、时效性、流量控制的精准性和局部链路异常的处理速度都上了一个新的台阶。

InfoQ:在调度系统的演进过程中,有哪些智能化运维的思考和实践?

不畏:在 2012 年到 2013 年,一方面,是阿里自身的电商业务量随着“双十一”“双十二”等活动以每年至少翻倍的速度快速增长。另一方面,处在阿里 CDN 商业化的前夕,可预见对外售卖后的业务爆发;我们在当时预感到了未来大数据的重要性,调度系统开始从数据角度做业务 / 来源维度的流量成分、带宽大小、带宽稳定性的系统化分析,并结合业务模型来做分时分来源的流量预测。也是从这个阶段开始,调度系统的运维从简单的软件发布、流量切换开始向以数据驱动的精细化运营转变。我觉得对数据的敏感性和价值挖掘能力的变化,是整个运维智能化历程中非常重要的里程碑。

InfoQ:今年优酷直播的 64 场世界杯比赛,全部由阿里云提供技术保障,高清热门体育赛事的直播和“双十一”相比,哪个挑战更大?调度策略有什么不同?

不畏:挑战都很大,世界杯和“双十一”,是两个不同的业务场景。“双十一”在 CDN 上,有两个业务阶段,一个是晚高峰,带宽形态大致与日常差距不大,但在波峰段有更高的带宽冲击,上量斜率更大,在这个阶段,调度策略大致与日常相近,我们会适当调整带宽预测的步长,让预测带宽和自动调整对比日常更加激进一些,以适应带宽的变化。第二个阶段是 11 号 0 点活动正式开始的时候,海量的交易请求冲击到 CDN 系统上,呈现一个脉冲式的请求量突峰,这个阶段,带宽、节点粒度的 CPU、内存、IO 的压力都会非常大,我们在调度策略上会预先进行分配优化,将脉冲式的突发流量往高性能节点上进行分流。

而世界杯或其他高清热门体育赛事的场景,更像是“双十一”两个场景的结合,在比赛开始后,带宽会快速的攀升,传统的流量预测比较难准确规划合适的资源。针对这个场景,我们特别研发了智能资源锁功能,提供了一种重保业务在多租户场景下的带宽资源优先分配模型,以此来保障世界杯的服务质量。

InfoQ:世界杯期间,运维保障工作遇到了什么难题,是怎么解决的?

不畏:世界杯护航对运维的挑战其实非常大,大家看世界杯这样的高清直播,最在意的是播放的流畅度,而从技术角度出发,影响播放流畅度的因素非常多,有用户本身的网络环境问题,有骨干网的因素,有 CDN 节点资源的链路问题,也有软件的问题,每一类问题会有不同的处理方案。在海量的用户样本中,找到哪些用户有卡顿,卡顿的原因是什么,如何进行有效地缓解,一系列动作都需要在几分钟内一一执行到位,这是摆在运维保障工作中的核心难题。

针对这些难题,阿里视频云团队选择了主动出击,第一时间和优酷播放端进行了客户端埋点数据的对接,将客户端的数据与服务端数据进行一一对应,结合服务端对全链路的质量监控,在客户端上报卡顿的瞬间,对比客户端到节点链路、节点水位和网络指标、节点内软件链路、节点到直播中心链路的各项指标,找出对应时间数据恶化最明显的指标进行针对性调整优化,再由调整后的效果来反向修正指标阈值的合理性。整个世界杯期间,这种对比 -> 调节 -> 反馈 -> 再对比的模式很好地帮助我们解决了运维保障的核心问题,同时我们利用建立在优酷端数据上的大网质量体系,反向来服务其他的直播客户,很好地保证了整个世界杯期间的直播体验。

InfoQ:有哪些智能调度的新技术?

不畏:AI、多终端结合调度、IPv6 是目前行业内智能调度比较普遍的技术方向,我觉得归根结底,智能调度的核心仍然是对业务数据的价值挖掘和有效利用。

InfoQ:简单聊聊调度系统全盘智能化之下的运维价值?

不畏:我觉得在调度全盘智能化,自动化之下,运维的价值会更多的体现在业务场景的抽象能力和系统化解决方案制订上;从一个商业业务场景,转化为一系列技术问题,从离散的技术问题,提炼平台化的功能需求,再将一个个平台化功能整合成行业解决方案,以系统化思维不断的优化解决方案的稳定性、效率和成本,是未来运维的核心价值。

近年来,随着大数据、机器学习和 AI 技术的飞速发展,智能化运维成为运维的热点领域。

CNUTCon 全球运维技术大会特设「AIOps 实践与探索」专场,目前,已经邀请到 BAT 的技术专家,从智能调度、智能异常检测、故障知识图谱、变更发布智能检查等多方面阐述落地 AIOps 过程中的实践经验。另外,大会还有其他 11 个专场,涉及自动化运维、监控分析、日志处理、Kubernetes、CI/CD、微服务、SRE 等运维热门方向。

目前,大会 8 折限时优惠,立减 720 元,团购更优惠。点击这里了解更多,有任何问题,欢迎咨询票务经理 Joy,电话:13269078023(微信同号)。

2018-09-30 19:571555

评论

发布
暂无评论
发现更多内容

并发编程-ReentrantLook底层设计

Java你猿哥

Java ssm 重入锁 lock锁 底层实现原理

盘古云课堂加入 PolarDB 开源数据库社区

阿里云数据库开源

polarDB PolarDB-X PolarDB-PG PolarDB for PostgreSQL 阿里云瑶池数据库

腾讯云和ScaleFlux联合推出可计算存储与大容量QLC NAND解决方案

ScaleFlux

腾讯云 数据中心 降本增效 企业级SSD SSD寿命

体验MMGPT本地部署(上)

IT蜗壳-Tango

三周年连更

AI都会写脚本了,传统的运维工程师会失业吗? | 社区征文

wljslmz

AI 运维工程师 三周年征文

在SDN技术盛行的时代,网络工程师需要不断学习新技术跟上时代的步伐 | 社区征文

wljslmz

sdn 三周年征文

总有AI想害'朕' 失业,我们该何去何从| 社区征文

穿过生命散发芬芳

ChatGPT 三周年征文

DxO PureRAW轻松获取纯净无瑕疵raw照片~

真大的脸盆

Mac 图像处理 Mac 软件 Raw图像处理软件 图像编辑工具

Python自动化办公神器!1行代码实现文件转PDF,支持Word、Excel、PPT、TXT格式

程序员晚枫

Python PDF

可计算存储是否真的与众不同?

ScaleFlux

压缩数据 计算与存储 固态硬盘

从IDC数据库安全报告,看OceanBase安全能力

OceanBase 数据库

数据库 oceanbase

专访惠众科技|元宇宙应用如何借助3DCAT实时云渲染实现流畅大并发呈现?

3DCAT实时渲染

元宇宙 实时渲染云

HTTPS 的加密过程及其工作原理

wljslmz

https 三周年连更

2023-05-10:给你一棵以 root 为根的二叉树和一个 head 为第一个节点的链表 如果在二叉树中,存在一条一直向下的路径 且每个点的数值恰好一一对应以 head 为首的链表中每个节点的值,

福大大架构师每日一题

Go 算法 rust 福大大

挑战与机遇,全面预算管理的执行计划

智达方通

Flink中的时间及窗口类型

阿泽🧸

flink 三周年连更

Java反射详解

timerring

Java

sysMaster: 全新1号进程实现方案,秒级自愈,保障系统全天在线

openEuler

Linux rust 操作系统 openEuler init

浅谈如何做好知乎内容营销:需要注意哪些细节

石头IT视角

理解并实现自动导入(Auto Import)功能的原理

Lee Chen

JavaScript

C++模板和泛型编程详解

小万哥

c++ 程序员 面试 后端 开发

IT知识百科:什么是下一代防火墙和IPS?

wljslmz

防火墙 三周年连更 入侵防御系统

新技术越来越多,作为程序员,我们应该怎么规划职业生涯? | 社区征文

wljslmz

三周年征文

云原生应用交付流程安全规范

穿过生命散发芬芳

安全规范 三周年连更

中国网约车领域月度观察2023年04月

易观分析

网约车 出行服务

不畏:智能调度的核心是对业务数据的价值挖掘和有效利用_DevOps & 平台工程_辛未・李_InfoQ精选文章