写点什么

腾讯云 11.11:十分钟内完成弹性伸缩,流量清洗化解 DDoS 攻击

  • 2016-11-11
  • 本文字数:3523 字

    阅读完需:约 12 分钟

一年一度的双十一狂欢节已经来临,这个特殊的节日因为电商们的集体疯狂促销而被赋予了特殊的含义。从往年的数据来看,双十一当天各家平台的成交额和成交量都是在创造着各种数字奇迹,并且每年都保持高速增长。惊人的数据背后也有着不可想象的挑战,特别是在零点之后的几分钟内,数千万的用户在同一时间进行着同样的购物流程,搜索、查看详情、下单、支付等等的每一个环节都需要保证高并发下的高可用性,扩容、冗余、多活、降级、防 DDos 等等的技术都需要渗入到相关的平台架构中。

而对于双十一这样的高并发访问场景,很多中小型电商并不具备相对应的运维能力,所以他们开始借助专业的云服务商来解决这些棘手的问题。这其中,腾讯云就为用户提供了 11.11 电商解决方案,核心能力包括弹性扩容、抵御刷单等,蘑菇街、聚美优品、当当、有货、唯品会、小红书、楚楚街等知名电商平台都基于他们的云服务构建了自己的业务架构。为了了解腾讯云电商解决方案的技术细节,InfoQ 记者采访了其资深架构师罗志。

电商架构

每家电商都有自己各自的业务特色和技术栈,具体落实的架构不尽相同;但是在我看来,有一些规律可以遵循,这里对不同的电商架构情况进行下分类介绍。各电商业务的架构一般比较类似,都是 4 层架构,即接入层、逻辑层、cache 层和数据库层。

近年来,随着抢购、秒杀的兴起,要求电商后台需要能够有集中时间内应对大请求量的处理能力,因此,在对接入层、逻辑层的按需、实时、快速平行扩展能力就提出了较高的要求。同时由于国内日渐猖獗的羊毛党黑产的泛滥,因此电商业务对腾讯云的基于大数据的恶意用户识别——天御系统,也有了越来越多的需求。

在考虑电商业务架构的时候,以接入层为例,在以往非云架构时,业务往往只会选择一个接入中心,虽然有 BGP 的接入,但毕竟受限于物理距离,故对距离接入中心较远的地区的覆盖,依然是存在不足的,这个问题在移动端 APP 访问时,变得尤为突出。因此在这里,建议更多的考虑如何复用公有云在全国各可用区间强大的内网专线能力,通过反向代理等技术,实现全国多接入中心的接入能力。

但若按业务架构的物理部署而言,又可以大致分为传统和新兴电商两类。其中传统电商,在初创时即使用自有 IDC,故仅在公有云上部署其接入、逻辑、cache 层,充分复用公有云的 BGP 接入及弹性的能力,同时又以专线将腾讯云与其私有 IDC 数据中心连接成为混合云。

而以小红书为代表的新兴电商,由于其是完全在腾讯云上成长起来的业务架构,故会将全部业务架构部署在云端,充分享受云带给其的低运维成本和低架构成本,而将全部重心投入在业务发展上。

如果某家电商客户同时采用了其他家的云服务或者自由 IDC,那么我认为混合云是一个比较好的发展方向,无论是双云混合还是自有 IDC+ 云。如果是双云架构,建议以双云容灾,一个为主一个为备作为主要的考虑方向。而如果是构建混合云,则以充分利用云的弹性及 BGP+ 多地接入节点作为主要的考虑方向。

怎样做到弹性伸缩

弹性伸缩(Auto Scaling)根据业务需求和策略,自动调整计算资源。可根据定时、周期或监控策略,恰到好处地增加或减少 CVM 实例,并完成配置,保证业务平稳健康运行。

腾讯云目前的弹性伸缩请求响应时间是 5-10 分钟,扩容时间视客户镜像大小而定,一般 10 分钟以内。同时并发扩容数,无限制。我们的实现是基于业务无状态层的,可自定义策略的弹性伸缩能力。

整体架构如下图:

这里可以举一个我们的客户案例进行分享,江苏盛瑞面临的挑战有三点:

  1. 动辄需要数千台规模的扩容,需要稳定、海量资源的后台

  2. 过去需要 2 个以上运维人员晚上加班手工扩容,耗时大半天,费事费力

  3. 机器数量巨大,希望找到计费更精确的云平台,节省费用

经过我们的努力最终实现了 2.5 小时完成两次自动扩容,共扩充接近 3000 台高配服务器,此后又完成自动缩容;全程零故障,零人工参与,顺利度过高峰。

尽可能地周全监控服务

对于监控,我们会考虑到云服务器 CPU 利用率、内存利用率、磁盘利用率以及云数据库、Memcached 高速存储等各项云服务负载和性能指标,通过直观图表展示出来。

在设计和实现监控时,我们考虑到了需要支持配置多种指标的告警触发阈值,每个策略可关联不同云产品。设为默认告警策略后,自动关联该策略,然后还支持自定义告警接收人和发送渠道。关于自定义告警通道服务,我们预留了告警上报接口,客户可以自己通过监控脚本产生自定义的告警,通过告警上报接口,即可将告警内容上报给云监控,平台会及时推送给客户。

同时,不单是监控,云 API 几乎覆盖所有可以以 API 方式对外提供服务的云产品并持续迭代。新产品上线时均同步推出对应 API。所有接口均以 https 方式对外提供,并通过签名机制对调用者身份进行鉴权,充分保证 API 请求的安全性和合法性。在调试上,腾讯云提供了云 API 的调试工具,方便开发者快速调试 API 接口,并提供了丰富的代码示例共开发和参考。

电商业务离不开图片处理

作为电商,图片支持需求是绕不过去的;对应到技术上,需要对商品图片进行存储和识别。这里重点谈谈我们的图片内容识别技术:DeepEye 内容识别引擎。

DeepEye 是由 SNG 优图实验室、TEG 信息安全部联合研发的图像识别引擎,基于海量数据与深度学习技术研发,旨在打造百亿处理级别的高可用、高准确图片内容检测识别系统,对行业内各大产品 UGC 图片 / 视频类数据进行主动色情检测,改变了信息安全领域依赖人工发现恶意内容的模式,升级为机器自动发现 + 人工辅助的 AI 模式;DeepEye 技术在鉴黄上的精度达到 99.95%,在多次业务评测中保持业界领先;在腾讯公司内部已接入包括 Qzone、头像、Q 群、朋友圈等绝大部分图片与视频业务,极大降低了业务监管风险;并联合腾讯云搭建了万象鉴黄、天御等品牌向公司外部客户提供多媒体内容检测服务,迄今接入了包括快手、大众点评、京东、大智慧、斗鱼等数十家领域内标杆公司,极大程度上解决了人力审核上的痛点并获得了好评。

这里不得不重点提一下 DeepEye 技术的创始团队:SNG 优图实验室,这支人工智能团队是腾讯公司布局前沿技术的一张王牌。从 2012 年成立至今,优图团队从寥寥数人已成长为具备近百人规模的算法研发团队,并于今年从原有社交平台部架构中独立出来,成立了优图实验室,专门从事机器学习、计算机视觉、音频分析等人工智能领域前沿科技的研发与产品落地。其实除了图像内容识别方面的能力,该团队的人脸识别、声纹识别等能力在国际比赛中创造了世界纪录。

越来越受到重视的安全技术

电商常见的三种困扰:恶意刷单、DDos 攻击、域名劫持,这里和大家分享其中两个。

处理恶意刷单需要积累恶意用户库、有效判定、处理执行。恶意用户的积累需要长久作战,收集 IMEI、QQ、微信、手机号码、身份证号、IP 等全方位的信息;需要基于大数据做到一处作恶、多处识别。

关于 DDoS 攻击的处理,我想谈谈锤子科技的这个案例。2015 年锤子坚果手机发布会,遭到攻击导致直播暂时,高达数十 G 的量攻击,锤子商城一度面临全面瘫痪风险。

此时腾讯云介入,在锤子官网域名的 DNS 配置里面加一条 CNAME,将相应域名解析到大禹,CNAME 功能会把用户流量的请求先路由到大禹的加速点,然后由大禹的加速点清洗、过滤,再吐回到原站,顺利化解了攻击。从启动预案,接入客户网站,到启动清洗,13 分钟内一气呵成,数十 G 的攻击流量均被大禹系统成功清洗,让锤子科技官网恢复正常,保证了现场发布会召开后 274 万在线用户的顺畅观看。

未来展望

又是一年电商狂欢时,能做的还有更多,更多的腾讯能力不断的跟广大云计算用户的需求相适应,结合电商我们可以做的更多,电商正在面临的转型问题和最新行业发展趋势,腾讯云电商解决方案还提供多样化的产品与服务。例如,许多电商正在尝试的“直播”模式,腾讯云的视频解决方案能够提供全方位、立体化的技术支持,支持直播应用在 24 小时内完成快速对接,拥有完整的直播能力,实现稳定的用户体验,这将为更多电商平台尝试“直播 + 电商”模式提供更多可能性。

而在人工智能层面,腾讯云基于腾讯 18 年的社交大数据经验提供准确的图片识别能力,可对不良内容进行准确甄别,识别精确度达 99.95%,节省用户 95% 的人力 ; 同时,腾讯云提供智能语音服务,日核查语音时长提升 31 倍,服务满意度提升 23%,从资源设备到人力成本全面实现优化。使用腾讯云智能语音服务后,珍爱网语音质检业务的覆盖率从 3% 提升到了 100%,质检效率提升 31 倍。与传统人工方式相比,同样数量的通话录音,质检成本仅为原来的 10%。

嘉宾介绍

罗志,腾讯云资深架构师。 2005 年加入腾讯,先后在腾讯集团内负责过系统运维、DBA、游戏运维、游戏运营规划、腾讯云售前架构师团队。目前主要致力于帮助合作伙伴评估、规划、重构系统架构,建立满足其业务未来至少 2-3 年发展需要的云端架构整体解决方案。

2016-11-11 04:004398

评论

发布
暂无评论
发现更多内容

常用的国内外组态软件推荐

2D3D前端可视化开发

物联网 组态软件 工业组态软件 web组态软件 SCADA

什么是HTTP代理?HTTP代理的作用?HTTP代理怎么设置?

巨量HTTP

代理IP IP地址 http代理 socks5代理

如何将数据从 InfluxDB 无缝接入到 TDengine 中?来看看

TDengine

tdengine Influxdb 时序数据库

首批通过!柏睿数据旗下数据库产品获强制性国标最高级别认证

新消费日报

2023年科技趋势展望报告,这几个领域程序员可以恰饭

互联网工科生

人工智能 软件开发 麦肯锡

我是如何使用Spring Retry减少1000 行代码

越长大越悲伤

Java spring retry spring-retry

融云:AI 机器人在社交软件中的花样存在

融云 RongCloud

AI 融云 社交软件 AIGC My AI

融云深度参与「新加坡 GTLC 大会」,连接亚太机遇、开拓国际市场

融云 RongCloud

通信 服务 融云 GTLC 东南亚

k8s发布应用

tiandizhiguai

微服务 云原生 k8s

以财证道,终身成长

少油少糖八分饱

读书笔记 思维 搞钱 致富 有钱人

Last Week in Milvus

Zilliz

非结构化数据 开源社区 Milvus Zilliz 向量数据库

一张图读懂TuGraph Analytics开源技术架构

TuGraphAnalytics

大数据 分布式 流计算 图计算 流图

国内智慧工业的实践,在一首曙光《长歌行》中

脑极体

AI 算力 数智化 曙光

一文看懂:小程序游戏需要版号吗?

FN0

九科信息成功签约中交房地产集团有限公司RPA项目

九科Ninetech

几款常用基于Web的组态编辑器

2D3D前端可视化开发

物联网 web组态 web组态软件 组态可视化 web组态编辑器

Kyligence Copilot 登陆海外,斩获 Product Hunt 日榜 TOP 2

Kyligence

指标平台 Kyligence Copilot 数据分成

电商店铺管理,为何需要华为云云耀云服务器L实例

YG科技

R语言之数据获取操作

timerring

R 语言

FuncGPT(慧函数)教你用Mybatis进行一对一查询映射处理

飞算JavaAI开发助手

走进大模型

统信软件

人工智能 深度学习 大模型

ARTS 薪火重启之第二周

渣渣辉

C++头文件和std命名空间

芯动大师

避雷干货丨初创或中小企业公司该如何选择云服务器?

YG科技

唯一受邀参会通信服务商!融云出席数字经济头部盛会「中数大会」并发言

融云 RongCloud

人工智能 互联网 通信 数字 融云

图智能在反洗钱方向的应用实践丨Fabarta 技术专栏

Fabarta

图计算 图分析 反洗钱 图智能 智能风控

代码随想录Day48 - 动态规划(九)

jjn0703

腾讯云11.11:十分钟内完成弹性伸缩,流量清洗化解DDoS攻击_架构_罗志_InfoQ精选文章