在11月6日召开的Techo开发者大会上，腾讯云副总裁、腾讯数据平台部总经理蒋杰博士正式对外披露腾讯大数据平台10年技术演进历程。经过10年的积累，腾讯大数据平台的算力资源池目前已有超过20万台的规模，每天实时数据计算量超过30万亿条，腾讯已经成为中国实时数据计算量最大的公司。并且，随着资源管理平台核心TKE和分布式数据库TBase正式对外开源，腾讯正在成为大数据领域开源最全面的公司。

腾讯云副总裁、腾讯数据平台部总经理蒋杰

作为全球最大的互联网公司之一，腾讯的数据量在短短5、6年时间增长了几千倍，目前每天产生的数据量超过几十万亿条数据在产生。为了应对这种爆炸式增长，腾讯走出了一条技术引进+改造+自研的道路。经过长达十年的不断升级和完善，腾讯大数据平台已经经历了四代演进。针对最新的大数据和人工智能技术发展趋势，腾讯正在下一代计算平台中，探索批流融合、ABC融合以及数据湖和联邦学习等前沿技术。

十年四次升级建立“大数据+AI”双引擎技术架构

腾讯内部目前有超过100万台服务器，腾讯云联合所有业务部门，利用业务空闲资源打造一套算力共享平台，该算力弹性资源池有20万的规模，大数据平台每天有1500万的分析任务、30万亿次的实时计算量，并且每天数据接入条数达35万亿条数据。此外，腾讯云的分布式机器学习平台，能支撑1万亿维度的数据训练。

能支撑如此大规模数据的接入和运算，是腾讯在大数据技术领域超过10年的积累，其核心的大数据平台已经完成了三次迭代。从以Hadoop为核心的离线计算时代到以Spark、Storm、Flink为核心的实时计算时代，再到如今的机器学习和深度学习时代，腾讯从无到有研发了分布式的机器学习引擎Angel，以及一站式AI开发平台智能钛TI，用来解决数据训练和算法的问题。目前，腾讯正在研究以批流融合、ABC融合、以及数据湖和联邦学习为方向的下一代大数据平台的研究,该平台将具备混合部署、跨域数据共享和边缘计算等能力。

据了解，为支撑海量业务发展，腾讯已经建立了“大数据+AI”的双引擎技术架构，其中，最底层为分布式存储层，存储结构化及非结构化数据，第二层是资源调度层，做CPU、GPU和FPGA的管理，第三层是计算层、分析层、数据采集层，而顶层则是业务应用层。通过四层完整的技术架构，自下而上为腾讯的整个应用生态保驾护航，保障亿万用户能安全顺畅地享受到腾讯的优质服务。

从局部优化到自主研发在实践中不断创新

从开始的技术引进、局部优化到如今的自主创新，腾讯的大数据技术在实践中不断完善、不断创新。十年前，腾讯管理几百个节点都很困难，调度性能差，规模上不去。为了有效解决计算能力和大规模集群问题，腾讯自研调度器，相对原生调度器性能提升150倍，大大提升了集群可扩展性。2016年，腾讯打破Sort Benchmark四项世界纪录，标志着算力已经达到世界领先水平。

由于腾讯20万台弹性资源池的机器分布在多个数据中心，不同地区甚至是不同国家，为了降低数据使用壁垒，去年自研了漂移计算引擎SuperSQL，作为统一的数据分析入口，通过智能CBO优化器，将计算下推到分布在各地的异构数据源，数据分析性能提高很多倍，并且数据量越大优势越明显。

数据应用越来越深入，腾讯对数据挖掘的需求也越来越多。随着模型的增大，最初用来做数据训练的MR、Spark已经不能满足上亿的模型维度的需求。2015年初，腾讯开始自研高性能的分布式机器学习平台Angel，采用PS架构，能支持10亿维度。目前Angel发展到3.0版本，能支持万亿维度，也可以兼容Spark、PyTorch、TensorFlow等生态，进一步降低了使用门槛。此外，Angel今年还新增了对深度学习、图计算等的支持。

腾讯正成为大数据领域开源最全面厂商

技术迭代不断加速，企业建设大数据平台和机器学习平台，不仅成本高昂，而且缺乏相应的专业人才，面临种种问题。

云时代，这些问题得到有效解决。目前，腾讯已经把网络、存储、数据库等IaaS能力，大数据、机器学习等PaaS的能力，以及上层的图像、语音、NLP、BI等SaaS能力，通过腾讯云对外开放。在大数据和AI两个领域，腾讯推出了以TBDS和智能钛TI为首的双引擎。让每个企业，不需要专业的大数据和AI团队，也能便捷用上领先的大数据和AI的能力。

另外，腾讯也通过开源和广大开发者共享技术成果。从2014开始，将第一代平台的核心，腾讯版的Hive进行了开源，2017年，更是把第三代平台的核心Angel开源。今年，腾讯加快了开源的脚步，在内部推开源协同的战略推动下，腾讯所有的技术栈，后续会越来越开放。

2个月前，腾讯在ApacheCon 2019上，面向全球开发者正式宣布开源自身核心平台——实时数据采集平台TubeMQ，并捐献给Apache社区。此次在Techo大会现场，再次重磅宣布正式开源资源管理平台核心TKE和分布式数据库TBase，随着在大数据开源领域的开源逐步加速，腾讯正在成为中国大数据领域开源最全面的厂商。

“目前，已经有数百万的开发者在腾讯云上构建应用，相信后面会有越来越多开发者加入，我们将和所有开发者一起，共建云上的应用生态”，蒋杰表示。

创作场景

从引进到自研，腾讯大数据平台每日数据计算量超 30 万亿