写点什么

不畏:智能调度的核心是对业务数据的价值挖掘和有效利用

  • 2018-09-30
  • 本文字数:2332 字

    阅读完需:约 8 分钟

据统计,2017 年的“双十一”,开场 28 秒,淘宝系交易额超 10 亿;2018 年,优酷直播了世界杯 64 场高清赛事,6 月 23 日,其移动端 DAU 破亿。这两个高并发场景,都是阿里云在保驾护航。InfoqQ 有幸请到了阿里视频云运维专家不畏,来聊一聊在业务请求量高峰阶段,调度策略如何进行分配优化,调度系统有哪些智能化运维的思考和实践。

 

InfoQ:阿里云现在有多少个 CDN 节点?带宽呢?

不畏:阿里云目前有 1500+ 的 CDN 节点,储备带宽超过 120TB,覆盖全球六大洲七十多个国家及国内主流运营商。

InfoQ:随着业务类型的快速变化,阿里云视频云调度系统是怎么演进的?

不畏:视频云的调度系统最早使用的是商业设备,在 2011 年开始走上自主研发的道路,2014 年 CDN 开始商业化对外售卖,调度系统为更好地服务商业用户,开始进行多终端的调度系统研发和全球化布局;2015 年阿里云商业 CDN 用户量井喷,业务形态发生了巨大变化,我们进行了调度系统的全盘自动化改造,正式告别人工时代;2017 年,精细化、多维度的自动资源规划、精准流控、主动链路探测等产品功能逐一上线,调度系统在流量规划的粒度、时效性、流量控制的精准性和局部链路异常的处理速度都上了一个新的台阶。

InfoQ:在调度系统的演进过程中,有哪些智能化运维的思考和实践?

不畏:在 2012 年到 2013 年,一方面,是阿里自身的电商业务量随着“双十一”“双十二”等活动以每年至少翻倍的速度快速增长。另一方面,处在阿里 CDN 商业化的前夕,可预见对外售卖后的业务爆发;我们在当时预感到了未来大数据的重要性,调度系统开始从数据角度做业务 / 来源维度的流量成分、带宽大小、带宽稳定性的系统化分析,并结合业务模型来做分时分来源的流量预测。也是从这个阶段开始,调度系统的运维从简单的软件发布、流量切换开始向以数据驱动的精细化运营转变。我觉得对数据的敏感性和价值挖掘能力的变化,是整个运维智能化历程中非常重要的里程碑。

InfoQ:今年优酷直播的 64 场世界杯比赛,全部由阿里云提供技术保障,高清热门体育赛事的直播和“双十一”相比,哪个挑战更大?调度策略有什么不同?

不畏:挑战都很大,世界杯和“双十一”,是两个不同的业务场景。“双十一”在 CDN 上,有两个业务阶段,一个是晚高峰,带宽形态大致与日常差距不大,但在波峰段有更高的带宽冲击,上量斜率更大,在这个阶段,调度策略大致与日常相近,我们会适当调整带宽预测的步长,让预测带宽和自动调整对比日常更加激进一些,以适应带宽的变化。第二个阶段是 11 号 0 点活动正式开始的时候,海量的交易请求冲击到 CDN 系统上,呈现一个脉冲式的请求量突峰,这个阶段,带宽、节点粒度的 CPU、内存、IO 的压力都会非常大,我们在调度策略上会预先进行分配优化,将脉冲式的突发流量往高性能节点上进行分流。

而世界杯或其他高清热门体育赛事的场景,更像是“双十一”两个场景的结合,在比赛开始后,带宽会快速的攀升,传统的流量预测比较难准确规划合适的资源。针对这个场景,我们特别研发了智能资源锁功能,提供了一种重保业务在多租户场景下的带宽资源优先分配模型,以此来保障世界杯的服务质量。

InfoQ:世界杯期间,运维保障工作遇到了什么难题,是怎么解决的?

不畏:世界杯护航对运维的挑战其实非常大,大家看世界杯这样的高清直播,最在意的是播放的流畅度,而从技术角度出发,影响播放流畅度的因素非常多,有用户本身的网络环境问题,有骨干网的因素,有 CDN 节点资源的链路问题,也有软件的问题,每一类问题会有不同的处理方案。在海量的用户样本中,找到哪些用户有卡顿,卡顿的原因是什么,如何进行有效地缓解,一系列动作都需要在几分钟内一一执行到位,这是摆在运维保障工作中的核心难题。

针对这些难题,阿里视频云团队选择了主动出击,第一时间和优酷播放端进行了客户端埋点数据的对接,将客户端的数据与服务端数据进行一一对应,结合服务端对全链路的质量监控,在客户端上报卡顿的瞬间,对比客户端到节点链路、节点水位和网络指标、节点内软件链路、节点到直播中心链路的各项指标,找出对应时间数据恶化最明显的指标进行针对性调整优化,再由调整后的效果来反向修正指标阈值的合理性。整个世界杯期间,这种对比 -> 调节 -> 反馈 -> 再对比的模式很好地帮助我们解决了运维保障的核心问题,同时我们利用建立在优酷端数据上的大网质量体系,反向来服务其他的直播客户,很好地保证了整个世界杯期间的直播体验。

InfoQ:有哪些智能调度的新技术?

不畏:AI、多终端结合调度、IPv6 是目前行业内智能调度比较普遍的技术方向,我觉得归根结底,智能调度的核心仍然是对业务数据的价值挖掘和有效利用。

InfoQ:简单聊聊调度系统全盘智能化之下的运维价值?

不畏:我觉得在调度全盘智能化,自动化之下,运维的价值会更多的体现在业务场景的抽象能力和系统化解决方案制订上;从一个商业业务场景,转化为一系列技术问题,从离散的技术问题,提炼平台化的功能需求,再将一个个平台化功能整合成行业解决方案,以系统化思维不断的优化解决方案的稳定性、效率和成本,是未来运维的核心价值。

近年来,随着大数据、机器学习和 AI 技术的飞速发展,智能化运维成为运维的热点领域。

CNUTCon 全球运维技术大会特设「AIOps 实践与探索」专场,目前,已经邀请到 BAT 的技术专家,从智能调度、智能异常检测、故障知识图谱、变更发布智能检查等多方面阐述落地 AIOps 过程中的实践经验。另外,大会还有其他 11 个专场,涉及自动化运维、监控分析、日志处理、Kubernetes、CI/CD、微服务、SRE 等运维热门方向。

目前,大会 8 折限时优惠,立减 720 元,团购更优惠。点击这里了解更多,有任何问题,欢迎咨询票务经理 Joy,电话:13269078023(微信同号)。

2018-09-30 19:571590

评论

发布
暂无评论
发现更多内容

腾讯三面落马+拒网易、CVTE后,字节四面成功拿下offer

编程菌

Java 编程 程序员 面试 计算机

使用Golang上传文件到MinIO对象存储(一)

liuzhen007

8月日更

Django QuerySet 就学那么一点点,一点点就够了

梦想橡皮擦

8月日更

【设计模式】迭代器模式

Andy阿辉

C# 后端 设计模式 8月日更

摸鱼小技巧之IDEA调试篇一

4ye

Java debug 后端 IDEA 8月日更

Web框架Gin | Gin 路由

xcbeyond

Go 语言 路由 gin 8月日更

你的孩子爱读书吗

箭上有毒

8月日更

飞书 + Lua 实现企业级组织架构登录认证

K8sCat

lua openresty 网关 飞书 组织架构

聊聊Java数据类型的那些事

Bob

Java 后端 8月日更

oeasy教您玩转vim - 16 - # 行内贴靠

o

终于有人把操作系统、网络系统、线程进程、IO模型全部总结出来了

Java~~~

Java 架构 面试 TCP 网络

面向用户的产品进度汇报会

boshi

项目管理 客户

【Flutter 专题】67 图解基本约束 Box (二)

阿策小和尚

Flutter 小菜 0 基础学习 Flutter Android 小菜鸟 8月日更

B 端产品经理如何快速成长?

蒋川

数据产品经理 b端产品经理

「让我们一起Golang」怎样出让协程资源和设置可用CPU核心数

Regan Yue

高并发 协程 Go 语言 8月日更

手撸二叉树之二叉树的中序遍历

HelloWorld杰少

数据结构与算法 8月日更

ReentrantLock 中的 4 个坑!

王磊

Java 并发 lock 8月日更

【前端 · 面试 】JavaScript 之你不一定会的基础题(二)

编程三昧

JavaScript 面试 大前端 事件 8月日更

360搜索宣布下线“明星人气排行榜”:饭圈文化不是洪水猛兽

石头IT视角

在线IP地址查询工具

入门小站

工具

Java 项目还需要 joda 吗

HoneyMoose

SQL的执行计划-->explain

卢卡多多

sql 8月日更

与外部系统的读写交互(八)

Databri_AI

flink kafka Cassandra

网络攻防学习笔记 Day104

穿过生命散发芬芳

态势感知 网络攻防 8月日更

低耦合、高内聚?

escray

学习 极客时间 如何落地业务建模 8月日更

【Dubbo3.0技术专题】总体技术体系介绍及技术指南(序章)

码界西柚

dubbo RPC 8月日更 Dubbo3

Linux之telnet命令

入门小站

Linux

ISO-8601 如何解读

HoneyMoose

架构实战营毕设

Vic

架构实战营

Java实现基于朴素贝叶斯的情感词分析

码农参上

Java 贝叶斯公式 文本情感分析 8月日更

架构实战营毕业总结

Vic

架构实战营

不畏:智能调度的核心是对业务数据的价值挖掘和有效利用_DevOps & 平台工程_辛未・李_InfoQ精选文章