写点什么

不畏:智能调度的核心是对业务数据的价值挖掘和有效利用

  • 2018-09-30
  • 本文字数:2332 字

    阅读完需:约 8 分钟

据统计,2017 年的“双十一”,开场 28 秒,淘宝系交易额超 10 亿;2018 年,优酷直播了世界杯 64 场高清赛事,6 月 23 日,其移动端 DAU 破亿。这两个高并发场景,都是阿里云在保驾护航。InfoqQ 有幸请到了阿里视频云运维专家不畏,来聊一聊在业务请求量高峰阶段,调度策略如何进行分配优化,调度系统有哪些智能化运维的思考和实践。

 

InfoQ:阿里云现在有多少个 CDN 节点?带宽呢?

不畏:阿里云目前有 1500+ 的 CDN 节点,储备带宽超过 120TB,覆盖全球六大洲七十多个国家及国内主流运营商。

InfoQ:随着业务类型的快速变化,阿里云视频云调度系统是怎么演进的?

不畏:视频云的调度系统最早使用的是商业设备,在 2011 年开始走上自主研发的道路,2014 年 CDN 开始商业化对外售卖,调度系统为更好地服务商业用户,开始进行多终端的调度系统研发和全球化布局;2015 年阿里云商业 CDN 用户量井喷,业务形态发生了巨大变化,我们进行了调度系统的全盘自动化改造,正式告别人工时代;2017 年,精细化、多维度的自动资源规划、精准流控、主动链路探测等产品功能逐一上线,调度系统在流量规划的粒度、时效性、流量控制的精准性和局部链路异常的处理速度都上了一个新的台阶。

InfoQ:在调度系统的演进过程中,有哪些智能化运维的思考和实践?

不畏:在 2012 年到 2013 年,一方面,是阿里自身的电商业务量随着“双十一”“双十二”等活动以每年至少翻倍的速度快速增长。另一方面,处在阿里 CDN 商业化的前夕,可预见对外售卖后的业务爆发;我们在当时预感到了未来大数据的重要性,调度系统开始从数据角度做业务 / 来源维度的流量成分、带宽大小、带宽稳定性的系统化分析,并结合业务模型来做分时分来源的流量预测。也是从这个阶段开始,调度系统的运维从简单的软件发布、流量切换开始向以数据驱动的精细化运营转变。我觉得对数据的敏感性和价值挖掘能力的变化,是整个运维智能化历程中非常重要的里程碑。

InfoQ:今年优酷直播的 64 场世界杯比赛,全部由阿里云提供技术保障,高清热门体育赛事的直播和“双十一”相比,哪个挑战更大?调度策略有什么不同?

不畏:挑战都很大,世界杯和“双十一”,是两个不同的业务场景。“双十一”在 CDN 上,有两个业务阶段,一个是晚高峰,带宽形态大致与日常差距不大,但在波峰段有更高的带宽冲击,上量斜率更大,在这个阶段,调度策略大致与日常相近,我们会适当调整带宽预测的步长,让预测带宽和自动调整对比日常更加激进一些,以适应带宽的变化。第二个阶段是 11 号 0 点活动正式开始的时候,海量的交易请求冲击到 CDN 系统上,呈现一个脉冲式的请求量突峰,这个阶段,带宽、节点粒度的 CPU、内存、IO 的压力都会非常大,我们在调度策略上会预先进行分配优化,将脉冲式的突发流量往高性能节点上进行分流。

而世界杯或其他高清热门体育赛事的场景,更像是“双十一”两个场景的结合,在比赛开始后,带宽会快速的攀升,传统的流量预测比较难准确规划合适的资源。针对这个场景,我们特别研发了智能资源锁功能,提供了一种重保业务在多租户场景下的带宽资源优先分配模型,以此来保障世界杯的服务质量。

InfoQ:世界杯期间,运维保障工作遇到了什么难题,是怎么解决的?

不畏:世界杯护航对运维的挑战其实非常大,大家看世界杯这样的高清直播,最在意的是播放的流畅度,而从技术角度出发,影响播放流畅度的因素非常多,有用户本身的网络环境问题,有骨干网的因素,有 CDN 节点资源的链路问题,也有软件的问题,每一类问题会有不同的处理方案。在海量的用户样本中,找到哪些用户有卡顿,卡顿的原因是什么,如何进行有效地缓解,一系列动作都需要在几分钟内一一执行到位,这是摆在运维保障工作中的核心难题。

针对这些难题,阿里视频云团队选择了主动出击,第一时间和优酷播放端进行了客户端埋点数据的对接,将客户端的数据与服务端数据进行一一对应,结合服务端对全链路的质量监控,在客户端上报卡顿的瞬间,对比客户端到节点链路、节点水位和网络指标、节点内软件链路、节点到直播中心链路的各项指标,找出对应时间数据恶化最明显的指标进行针对性调整优化,再由调整后的效果来反向修正指标阈值的合理性。整个世界杯期间,这种对比 -> 调节 -> 反馈 -> 再对比的模式很好地帮助我们解决了运维保障的核心问题,同时我们利用建立在优酷端数据上的大网质量体系,反向来服务其他的直播客户,很好地保证了整个世界杯期间的直播体验。

InfoQ:有哪些智能调度的新技术?

不畏:AI、多终端结合调度、IPv6 是目前行业内智能调度比较普遍的技术方向,我觉得归根结底,智能调度的核心仍然是对业务数据的价值挖掘和有效利用。

InfoQ:简单聊聊调度系统全盘智能化之下的运维价值?

不畏:我觉得在调度全盘智能化,自动化之下,运维的价值会更多的体现在业务场景的抽象能力和系统化解决方案制订上;从一个商业业务场景,转化为一系列技术问题,从离散的技术问题,提炼平台化的功能需求,再将一个个平台化功能整合成行业解决方案,以系统化思维不断的优化解决方案的稳定性、效率和成本,是未来运维的核心价值。

近年来,随着大数据、机器学习和 AI 技术的飞速发展,智能化运维成为运维的热点领域。

CNUTCon 全球运维技术大会特设「AIOps 实践与探索」专场,目前,已经邀请到 BAT 的技术专家,从智能调度、智能异常检测、故障知识图谱、变更发布智能检查等多方面阐述落地 AIOps 过程中的实践经验。另外,大会还有其他 11 个专场,涉及自动化运维、监控分析、日志处理、Kubernetes、CI/CD、微服务、SRE 等运维热门方向。

目前,大会 8 折限时优惠,立减 720 元,团购更优惠。点击这里了解更多,有任何问题,欢迎咨询票务经理 Joy,电话:13269078023(微信同号)。

2018-09-30 19:571437

评论

发布
暂无评论
发现更多内容

Ascend CL两种数据预处理的方式:AIPP和DVPP

华为云开发者联盟

人工智能 华为云 昇腾CANN 华为云开发者联盟 企业号 3 月 PK 榜

Perforce研讨会回顾 | Helix Core在芯片行业的应用实例:芯片项目的版本控制、持续集成及自动化

龙智—DevSecOps解决方案

ci cicd 版本控制 持续集成 芯片开发

CorelDRAW Graphics Suite2023功能介绍

茶色酒

cdr2023

云计算搭上“双碳”,天翼云在绿色算力赛道加速跑

天翼云开发者社区

第四朵“云”!全托管的时序数据云平台 TDengine Cloud 正式支持阿里云

TDengine

大数据 tdengine 阿里云 时序数据库 云服务

GPT-4:不open的OpenAI,终于不再编造事实

鼎道智联

openai ChatGPT4

通通透透看无服务器计算:由来、场景和问题

天翼云开发者社区

代码质量与安全 | 免费的静态分析工具好吗?

龙智—DevSecOps解决方案

SAST 静态代码扫描 DAST

币安欧意交易所合约跟单平台软件开发详情(api对接)

开发微hkkf5566

盘活存储资源,天翼云HBlock助力企业绿色高效发展!

天翼云开发者社区

PostgreSQL:psql 介绍

天翼云开发者社区

听说火山引擎推出的DataLeap,已经可以支持万级表的数据血缘图谱了!

字节跳动数据平台

大数据 数据治理 数据研发 企业号 3 月 PK 榜

深入理解关键字volatile

小小怪下士

Java 程序员 volatile 关键字

AI笔刷怎样导入?adobe ai笔刷安装教程

Rose

AI画笔 AI教程 Illustrator 2023 下载 AI中文版

EMQ&南洋万邦云边一体化方案:激活数据潜力,打造智慧工业园区

EMQ映云科技

物联网 IoT 工业互联网 智能制造 企业号 3 月 PK 榜

大语言模型必将取代一切?暂时不会!

深数

人工智能 科技 AGI GPT LLM

开启一个A/B实验到底有多简单?

字节跳动数据平台

云服务 AB testing实战 ab测试 企业号 3 月 PK 榜

MQTT 5.0特性Inflight Window&Message Queue

EMQ映云科技

物联网 IoT mqtt emqx 企业号 3 月 PK 榜

Portraiture最新版插件新增哪些功能?

茶色酒

Portraiture4

全球掀起AI热,天翼云智算能力已就绪!

天翼云开发者社区

代码实战带你了解深度学习中的混合精度训练

华为云开发者联盟

人工智能 深度学习 华为云 华为云开发者联盟 企业号 3 月 PK 榜

StyleGAN 生成 AI 虚拟人脸,再也不怕侵犯肖像权

极客飞兔

人工智能 AI 图像处理 StyleGAN 人脸生成

2023金三银四最新Java面试题大全(整理版)1000+面试题附答案详解

架构师之道

程序员 java面试

Linux进程学习【进程地址】

Yohifo

Linux 学习 运维 后端 进程

Neural Filters神经滤镜插件如何安装?PS神经滤镜插件安装教程

Rose

mac系统 Neural Filters PS滤镜插件 PS20221下载

如何利用ChatGPT搞科研?

Openlab_cosmoplat

人工智能 开源社区 ChatGPT

Go Slice 扩容的这些坑你踩过吗?

王中阳Go

Go golang 高效工作 学习方法 面试题

专场直播预约 | 邀您探讨KaiwuDB 离散制造业场景解决方案

墨天轮

数据库 解决方案 制造业 国产数据库 KaiwuDB

简单小巧的右键助手:MouseBoost for Mac让您的工作效率大幅度提高

Rose

mac效率工具 右键助手 MouseBoost激活版

Atlassian Server用户新选择 | 迁移到数据中心版前,您需要做这些准备(1)

龙智—DevSecOps解决方案

Atlassian Atlassian迁移 数据中心版 server版

不畏:智能调度的核心是对业务数据的价值挖掘和有效利用_DevOps & 平台工程_辛未・李_InfoQ精选文章