写点什么

春运期间,基础平台如何应对高并发需求?

  • 2020-01-13
  • 本文字数:2178 字

    阅读完需:约 7 分钟

春运期间,基础平台如何应对高并发需求?

在阿里内部,春运被形容为“第二个双 11 活动”,也是头等重要的日子。


对于一年一度的周期性全国人口大迁徙,阿里云智能作为基础架构支撑平台,为 12306 网站,航空公司等客户提供稳定的技术保障,一起在架构上持续优化,应对高并发的购票需求。


2020 年春运比往年来得要早一些,1 月 10 日起动,将持续到 2 月 18 日,共计 40 天,随着智慧交通时代已来,春运是交通行业的高流量、高峰值场景。为了了解阿里云智能在交通领域的整体技术和实践与成果,我们采访了阿里云智能中国区大交通资深 SRE 架构师章君,就稳定性保障话题展开介绍。


章君介绍,阿里云智能的 SRE 和国外的 SRE 不一样,Google SRE 是指 Site Reliability Engineer (网站可靠性工程师),而在云计算环境下,可以解释为 Services Reliability Engineer(服务稳定性/可靠性工程师)。Engine 作为名词,表示“引擎”,引擎是飞机或者汽车上发动机的核心部分。Engineer 是引擎的工程师。阿里云智能的 SRE 团队作为服务团队有双重使命。对内,是驱动阿里云智能各个部门不断优化和前进的角色;对外,SRE 的使命是帮助客户用好云,围绕客户上云之后整个业务架构的稳定性去做基础建设,以业务为导向。


章君说,从网购车票开始之前,一些传统的客户在一年当中的流量有一定的高峰,但是网上购票之后,高并发体现的尤为突出,如何承载这样的需求比较关键。


解决这样的问题主要依靠三大核心能力:


洪峰承载能力:系统架构能力是否可以随时随地承接来自峰值的流量,除了能平稳承接,还要具备识别出不正常的流量,以至于不影响终端应用体验。


高可用能力:具有承载能力并不是万全之策,还需要具备解决异常情况的能力。比如在预测范围之内发生了不当的网络流量,如何对这些流量进行导流和切换,如何更快的收敛和风险控制。


数据安全保障能力:这也很重要,在业务安全方面,保证客户业务能够按照预期展开,比如说异常流量、恶意请求等预防。其次是平台安全,保证数据安全和客户信息安全,防止泄密、篡改等。


要做到这样的保障,需要什么样的能力?怎么去做?章君老师解释说,阿里云智能除了为客户提供计算能力,存储能力,网络能力和技术能力之外,还有一个是技术服务能力的输出,会根据客户的业务需求,全套或者按模块输出标准的高可用保障体系,叫做云上护航。


具体而言,就是阿里云智能在面向出行高峰,大促,晚会等大流量,高峰值情况下,为客户提供的合理规划弹性扩展、优化性能、安全可靠、抵御流量攻击、处理恶意请求、节点调度优化等技术能力,确保网络顺畅。


具体而言,提前和客户规划好当前业务目标是什么,大概需要资源范围,随后进行标准压测,在业务目标和当前的资源评估基础上做一些应急预案,举例:如果有超预期流量出现,阿里云智能底层的产品能力是秒级响应的,可以快速上线和快速进行计算能力和容量吸收,这是弹性伸缩能力。


在安全方面,通过高防能力抵御不正常请求,确保将不正常请求拒之门外。


网络场景上,现在 4G、5G 广泛应用,各个网络的集中点不一样,如果边缘节点出现了问题,系统如何通过智能调度选择一个更快的路径,快速的打开 APP、快速打开业务,这是核心能力的保障。



以业务流量图为例,第一层是边缘节点,可以快速打开图片和静态数据,同时可以做一些预热环境。第二层是接入层,会涉及到抵御,进行数据清洗,区分流量是否正常,对攻击行为进行拦截。正常流量会进入到网关层,这里面做了几件涉及到流量调度和容灾能力的事情,A 机房的流量出现问题会调到 B 机房,进行正常流量接收。


在服务层(应用层),有符合任何业务场景的弹性计算规格,例如对网络优化的,图形处理,内存比较高的等。


再往上是缓存层和数据层。缓存层要查询票务信息之类的,缓存对网络延迟要求比较高,保证稳定性。数据库的高可用上做到了自动化,可以根据数据的安全进行切换,按照数据进行调配。智能化运维也一样,跟前面类似,当缓存库出现问题的时候,会进行切换。


从整个业务场景来看,流量一层一层进来后是慢慢变小的,这是漏斗形过滤网,和客户一起从前期所有的业务做全链路评估、压测分析、输出方案、故障演练,在护航保障期间做专项监控和应急保障。为了让客户轻量化执行运维,阿里云智能将 SRE 服务标准化,客户会更聚焦于业务的战略和业务架构实现,不需要关心底层技术。比如资源编排,限流降级等客户在资源部署上可以实现了快速批量部署,快速配置,自动化限流等。


从稳定性本身来讲,春运保障方面是有一套标准流程 SOP,要识别客户的业务需求是什么,然后根据业务诉求制定目标,理清楚他的业务逻辑。举个例子,以秒杀为例,一定要清楚哪些是关键路径,哪些地方需要非常严格和标准的评估,梳理出整体的业务逻辑,还需要一套标准压测、流量评估、降级限流预案等方案体系。


需求和技术迭代之间既有矛盾,又是互相推动的,平衡点在于取舍之间。章老师说他们目前也处在探索过程,客户的需求流程不断变化,技术也在迭代,还有非常长的路要走。

嘉宾介绍:

章君(花名:辛达):阿里云智能中国区大交通资深 SRE 架构师。2012 年加入阿里云智能全球技术服务部-SRE-中国区大交通行业 TAM 团队负责人,主要对该行业客户的云上业务架构进行稳定性方案输出与建设。

活动推荐:

ArchSummit全球架构师峰会(深圳站)2020已经启动,精选 100+国内外专家技术实践落地案例,AIOps、微服务架构、数据中台、大前端趋势等等热门技术,欢迎自荐或推荐。


2020-01-13 14:543074
用户头像

发布了 181 篇内容, 共 100.1 次阅读, 收获喜欢 207 次。

关注

评论

发布
暂无评论
发现更多内容

Rust从0到1-完结

rust

如何优雅地设计DWS层? | StartDT Tech Lab 17

奇点云

GitHub经典教材!阿里P8的这份SpringBoot精髓到底厉害在哪里?

Java~~~

Java 架构 面试 微服务 Spring Boot

写了一年golang,来聊聊进程、线程与协程

捉虫大师

线程 进程 协程 Go 语言

TLS协议分析 (九) 现代加密通信协议设计

OpenIM

为什么在 Windows 下用 Ctrl+Z 退出 Python 而 Linux 下用 Ctrl+D 呢?

小拍Piper

Python Linux windows

量化交易系统软件开发(源码)

Geek_23f0c3

量化交易机器人系统开发 量化策略 智能量化交易软件

打爆怪兽 一起来养猪 养蜂人 幸福饭店 山海经 弹球 旅行世界

游戏开发_软件开发

Java多线程:从基本概念到避坑指南

Java 架构 后端 JVM 计算机

Alibaba新产!Spring+SpringBoot+SpringCloud全家桶进阶小册

Java~~~

Java spring 架构 面试 Spring Boot

GitOps系列|云原生时代,你还不懂GitOps?

极狐GitLab

security CI/CD gitops

DataMaleon组件化开发实践 | StartDT Tech Lab 14

奇点云

大数据安全验证之Kerberos | StartDT Tech Lab 11

奇点云

浅谈元数据采集 | StartDT Tech Lab 10

奇点云

清华大牛带领20位大厂专家耗时三年整理出这份2000页Java进阶指南

Java~~~

Java 架构 面试 微服务 多线程

性能优化之分页查询 | StartDT Tech Lab 12

奇点云

三顾茅庐,七面阿里,25k*16offer,还原我的大厂面经

Java 程序员 面试 后端 计算机

不吹不黑!阿里新产微服务架构进阶笔记我粉了!理论实战齐飞

Java 程序员 架构 面试 微服务

实用?HUAWEI高工总结出15W字的图解计算机操作系统指南手册

Java~~~

Java 架构 面试 TCP 网络协议

数据仓库领域常见建模方法及实例演示 | StartDT Tech Lab 16

奇点云

从动物科学到乐队鼓手,腾讯技术小哥的开源人生

腾源会

腾讯云 开源

操作系统的IO模型

Java 程序员 架构 操作系统 计算机

Alibaba内部的10w字Java高频面试手册遭人恶意在牛客网开源下载?

Java~~~

Java 架构 面试 JVM 多线程

26岁!月薪38k,全靠这份GitHub百万下载的阿里P5-P9知识核心手册

Java~~~

Java 架构 面试 微服务 多线程

成为优秀架构师需要具备哪些能力?

卢卡多多

架构师 服务 9月日更

分享 | RadonDB 的开源之路(4 千字长文)

RadonDB

MySQL 数据库 RadonDB

一个不起眼却非常实用的功能介绍

ThingJS数字孪生引擎

大前端 物联网 可视化 数字孪生

分布式任务调度的应用分享 | StartDT Tech Lab 13

奇点云

在职字节师兄分享出了这份数据结构手册,LeetCode现已开放下载

Java~~~

Java 架构 面试 算法 刷题

有人在恶意提权吗?

BUG侦探

Linux 主机安全 提权

吃透HTTP原理,教你建立安全的HTTPS网站

博文视点Broadview

春运期间,基础平台如何应对高并发需求?_技术管理_Xue Liang_InfoQ精选文章