写点什么

双 11 核心系统 100% 上云,阿里 CTO 行癫分享实录整理

2019 年 11 月 12 日

双11核心系统100%上云,阿里CTO行癫分享实录整理

在平稳度过 2019 天猫双 11 流量峰值后,阿里巴巴正式宣布,其核心系统已 100%跑在阿里云公共云上。据悉,两个月前,阿里巴巴就已完成迁徙,将数以十万计的物理服务器从线下数据中心迁移到了云上。由此,阿里巴巴成为全球首个将核心交易系统 100%运行在公共云上的大型互联网公司。双 11 当天,行癫向媒体介绍了阿里巴巴双 11 技术,本文对演讲内容进行了简要整理。



非常高兴,我是阿里巴巴集团 CTO、阿里云智能总裁张建锋(花名:行癫),我在阿里巴巴这么多年,第一次在媒体现场跟大家介绍阿里巴巴的技术。现在的时间点非常好,我们刚刚过了 2500 亿交易额,过去的一天,20 个小时是阿里技术上最经受考验的一次。


从去年开始,我们决定把整个阿里巴巴经济体核心系统全部上云,其实上云还要加一个定语,是上“阿里云”,并不是上任何一朵云都能撑得住这个流量。在中国,我们经常说中国有两朵云,一朵叫做“阿里云”,还有一朵叫做“其它云”。


为什么讲阿里云跟其它云不一样,因为在中国只有阿里云是完全从头研发的一朵云,从头是从每一行代码,从十年前开始写,今年是阿里云的第 10 年,所以我们这个云有一个特别的名字,叫做“飞天操作系统”,当初王坚博士创办阿里云的时候,对我们这个云下面的调度系统,整个云的基础平台,取名叫做“飞天操作系统”。


我们的云完全是中国自研的一朵云,其它很多云从开源软件改造过来的,这是非常大的不一样。今年双 11,阿里仍然是一架在高速飞行中的飞机,我们成功的在这个过程中换上了全新的引擎。以前,大家把非核心负载放在云上,现在阿里巴巴最核心的系统放在了云上。现在我们的云把原来专用的技术变成公共云,大家都可以来享受普惠服务。我们有最好的系统,你们也可以在上面跟我们一样使用。


阿里云承载阿里巴巴 100%的核心系统,这是我们全球第一个做到的。很多云厂商自己也有业务系统,但是自己的系统不在自己的云上。我们以后所有阿里系统全部都在阿里云的飞天操作系统上面。


大家一定会想,这是一个简单的替换还是技术上非常大的一个进步、非常大的挑战?我简单说一下,我们有几个方面做得非常好,它不是简单的替换,上云之后性能有了一个非常大的提高。


今天大家可能有感觉,我们前十分钟,基本上消费者没有感受到任何抖动,大家购物非常顺畅。


  • 第一,我们在核心虚拟机系统上,自己研发了神龙架构,我们用自研的服务器来做虚拟化,一般的服务器随着压力增长,最终负载能力会慢慢下降,它不是线性的。我们神龙服务器压力越大,输出也是非常线性的,这是非常难做到的。

  • 第二,我们自研了云原生的数据库,今年有两个数据库,一个是自研的 OceanBase,大家知道我们在 TPC-C 测试里面拿下了全球第一。第二是 POLARDB,也广泛用在这次双 11 上,没有任何问题,我们每秒峰值也是远远超越于原来 Oracle 这样传统的数据库。

  • 第三,我们的计算与存储做了分离,现在阿里巴巴存储是有一个地方专门存数据的,数据都是从远端存取的,所以存储可以很方便的扩容,因为它有一个专门的池。原来做不到。因为原来远端存储,访问网络速度就跟不上。

  • 第四,核心技术。之所以现在能够做到在远端存储,能够比本地读写磁盘更快,是因为我们做了 RDMA 网络,这是全球第一个大规模做 RDMA 网络的公司。


我们这四个方面都做了核心突破。


飞天操作系统,今天能够在 10 万台级别以上的服务器里面做调度,今天双 11 有非常多的应用,但是它并不是说每一个时间点,所有应用负载都一样。我们在零点把大部分计算机资源分配给交易等应用,一点之后,我们把数据分配给数据处理系统。数据处理今年创了新高,2017 年当天处理了 300PB 的数据,2018 年处理了 600PB 的数据,今年要处理 970P 左右的数据。


大家可能没有概念,一个 P 到底有多少数据,我上次跟央视的人交流,央视拍了这么多年电视新闻节目,几十年下来大概 80P 数据。双 11 一天,我们要处理 970P 数据,非常大的量,没有一个先进的系统是撑不住的。


第二个是非常实时,今天的秒杀,会场全部都是个性化,千人千面的,这里的数据不仅大,而且要做到非常实时。到目前为止,菜鸟物流系统已经产生了超过 10 亿笔的物流单,这个数据还在很快的上涨,这些都需要依靠阿里云背后大量的计算能力。


我们今年的数据,除了批处理之外,还有流处理,就是实时处理所有数据,就像你们看到的交易数据,每分钟、每秒钟都在变,它并不是从数据库里面统计出来的,它是每生成一笔订单,系统自动一层层把数据汇集上来。我们这个系统每秒能处理 25 亿笔记录,这是流式系统。


我们这么多服务器,要把它全部管理起来,除了飞天系统之外,还要管理所有消息流转,所以我们自己开发了一个叫做 MQ 的消息系统,这也是全球目前最大的一个消息系统。


今天,从飞天系统、大数据处理平台到智能化应用,这些技术叠加起来打造了一个新的分布式的基于云的平台,才使得阿里整个经济体所有核心应用都能够跑在上面。


最后,我们今年除了数据库突破之外,也发布了自研的芯片——含光800芯片。明年双 11,阿里大量人工智能应用都会跑在自研芯片上面。


今天从飞天云操作系统到神龙服务器、数据库、交换机、交换机操作系统、RDMA 网络,全部是阿里自研的。我们今天已经积累了非常丰富、非常强的能力,从硬件、数据库、云计算操作系统,到上面的核心应用平台,四位一体,这是这次双 11 跟往年最大不一样的地方。


我简单分享到这里,谢谢大家!


2019 年 11 月 12 日 09:302542
用户头像
赵钰莹 InfoQ高级编辑

发布了 691 篇内容, 共 405.5 次阅读, 收获喜欢 2257 次。

关注

评论 1 条评论

发布
用户头像
国内阿里还是牛逼啊,希望能尽快从业务里抽身出来,带动国内人工智能发展。
2019 年 11 月 12 日 12:45
回复
没有更多了
发现更多内容

数据类型转换

拾贝

食堂就餐卡系统设计

Lane

食堂就餐卡系统设计

mh

系统设计

小师妹学JavaIO之:Buffer和Buff

程序那些事

io nio 小师妹 buffer buff

Week1-架构是什么&如何做架构

wyzwlj

极客大学架构师训练营

位运算

拾贝

Week1-Homework

架构师训练营第一周总结

邵帅

命题作业—第一周

于江水

极客大学架构师训练营

架构师训练营第一周

Melo

深入理解JVM垃圾回收机制 - 对象的内存布局

WANDEFOUR

深入理解JVM 内存布局 垃圾回收

架构师训练营作业(week-01)

Justin

架构师训练营第一周总结

小树林

switch 语句

拾贝

架构师训练营学习总结(week-01)

Justin

「架构师训练营」Week01 作业+总结

PowerZhang

极客大学架构师训练营

架构师训练营 Week01 学习心得

极客大学架构师训练营

食堂就餐卡系统设计

Season

极客大学架构师训练营

架构设计作业1——食堂就餐卡系统设计

Andy风

架构师训练营作业--Week1

吴炳华

食堂就餐卡系统设计

GalaxyCreater

if语句

拾贝

重学 Java 设计模式:实战装饰器模式(SSO单点登录功能扩展,增加拦截用户访问方法范围场景)

小傅哥

设计模式 小傅哥 重构 代码质量 代码坏味道

架构师训练营作业

邵帅

使用IBM Blockchain Platform extension开发你的第一个fabric智能合约

程序那些事

区块链 blockchain hyperledger fabric ibm

学习总结—第一周

于江水

极客大学架构师训练营

游戏夜读 | 毛利率有多少?

game1night

在IBM Cloud中运行Fabric

程序那些事

vscode blockchain hyperledger fabric ibm

第一周学习总结

战峰

架构师训练营第1周学习总结

Season

极客大学架构师训练营

第一周.UML课后作业

西柚

UML

演讲经验交流会|ArchSummit 上海站

演讲经验交流会|ArchSummit 上海站

双11核心系统100%上云,阿里CTO行癫分享实录整理-InfoQ