HarmonyOS开发者限时福利来啦!最高10w+现金激励等你拿~ 了解详情
写点什么

从引进到自研,腾讯大数据平台每日数据计算量超 30 万亿

  • 2019-11-11
  • 本文字数:2049 字

    阅读完需:约 7 分钟

从引进到自研,腾讯大数据平台每日数据计算量超30万亿

在 11 月 6 日召开的 Techo 开发者大会上,腾讯云副总裁、腾讯数据平台部总经理蒋杰博士正式对外披露腾讯大数据平台 10 年技术演进历程。经过 10 年的积累,腾讯大数据平台的算力资源池目前已有超过 20 万台的规模,每天实时数据计算量超过 30 万亿条,腾讯已经成为中国实时数据计算量最大的公司。并且,随着资源管理平台核心 TKE 和分布式数据库 TBase 正式对外开源,腾讯正在成为大数据领域开源最全面的公司。



腾讯云副总裁、腾讯数据平台部总经理蒋杰


作为全球最大的互联网公司之一,腾讯的数据量在短短 5、6 年时间增长了几千倍,目前每天产生的数据量超过几十万亿条数据在产生。为了应对这种爆炸式增长,腾讯走出了一条技术引进+改造+自研的道路。经过长达十年的不断升级和完善,腾讯大数据平台已经经历了四代演进。针对最新的大数据和人工智能技术发展趋势,腾讯正在下一代计算平台中,探索批流融合、ABC 融合以及数据湖和联邦学习等前沿技术。

十年四次升级 建立“大数据+AI”双引擎技术架构

腾讯内部目前有超过 100 万台服务器,腾讯云联合所有业务部门,利用业务空闲资源打造一套算力共享平台,该算力弹性资源池有 20 万的规模,大数据平台每天有 1500 万的分析任务、30 万亿次的实时计算量,并且每天数据接入条数达 35 万亿条数据。此外,腾讯云的分布式机器学习平台,能支撑 1 万亿维度的数据训练。


能支撑如此大规模数据的接入和运算,是腾讯在大数据技术领域超过 10 年的积累,其核心的大数据平台已经完成了三次迭代。从以 Hadoop 为核心的离线计算时代到以 Spark、Storm、Flink 为核心的实时计算时代,再到如今的机器学习和深度学习时代,腾讯从无到有研发了分布式的机器学习引擎 Angel,以及一站式 AI 开发平台智能钛 TI,用来解决数据训练和算法的问题。目前,腾讯正在研究以批流融合、ABC 融合、以及数据湖和联邦学习为方向的下一代大数据平台的研究,该平台将具备混合部署、跨域数据共享和边缘计算等能力。


据了解,为支撑海量业务发展,腾讯已经建立了“大数据+AI”的双引擎技术架构,其中,最底层为分布式存储层,存储结构化及非结构化数据,第二层是资源调度层,做 CPU、GPU 和 FPGA 的管理,第三层是计算层、分析层、数据采集层,而顶层则是业务应用层。通过四层完整的技术架构,自下而上为腾讯的整个应用生态保驾护航,保障亿万用户能安全顺畅地享受到腾讯的优质服务。

从局部优化到自主研发 在实践中不断创新

从开始的技术引进、局部优化到如今的自主创新,腾讯的大数据技术在实践中不断完善、不断创新。十年前,腾讯管理几百个节点都很困难,调度性能差,规模上不去。为了有效解决计算能力和大规模集群问题,腾讯自研调度器,相对原生调度器性能提升 150 倍,大大提升了集群可扩展性。2016 年,腾讯打破 Sort Benchmark 四项世界纪录,标志着算力已经达到世界领先水平。


由于腾讯 20 万台弹性资源池的机器分布在多个数据中心,不同地区甚至是不同国家,为了降低数据使用壁垒,去年自研了漂移计算引擎 SuperSQL,作为统一的数据分析入口,通过智能 CBO 优化器,将计算下推到分布在各地的异构数据源,数据分析性能提高很多倍,并且数据量越大优势越明显。


数据应用越来越深入,腾讯对数据挖掘的需求也越来越多。随着模型的增大,最初用来做数据训练的 MR、Spark 已经不能满足上亿的模型维度的需求。2015 年初,腾讯开始自研高性能的分布式机器学习平台 Angel,采用 PS 架构,能支持 10 亿维度。目前 Angel 发展到 3.0 版本,能支持万亿维度,也可以兼容 Spark、PyTorch、TensorFlow 等生态,进一步降低了使用门槛。此外,Angel 今年还新增了对深度学习、图计算等的支持。

腾讯正成为大数据领域开源最全面厂商

技术迭代不断加速,企业建设大数据平台和机器学习平台,不仅成本高昂,而且缺乏相应的专业人才,面临种种问题。


云时代,这些问题得到有效解决。目前,腾讯已经把网络、存储、数据库等 IaaS 能力,大数据、机器学习等 PaaS 的能力,以及上层的图像、语音、NLP、BI 等 SaaS 能力,通过腾讯云对外开放。在大数据和 AI 两个领域,腾讯推出了以 TBDS 和智能钛 TI 为首的双引擎。让每个企业,不需要专业的大数据和 AI 团队,也能便捷用上领先的大数据和 AI 的能力。


另外,腾讯也通过开源和广大开发者共享技术成果。从 2014 开始,将第一代平台的核心,腾讯版的 Hive 进行了开源,2017 年,更是把第三代平台的核心 Angel 开源。今年,腾讯加快了开源的脚步,在内部推开源协同的战略推动下,腾讯所有的技术栈,后续会越来越开放。


2 个月前,腾讯在 ApacheCon 2019 上,面向全球开发者正式宣布开源自身核心平台——实时数据采集平台 TubeMQ,并捐献给 Apache 社区。此次在 Techo 大会现场,再次重磅宣布正式开源资源管理平台核心 TKE 和分布式数据库 TBase,随着在大数据开源领域的开源逐步加速,腾讯正在成为中国大数据领域开源最全面的厂商。


“目前,已经有数百万的开发者在腾讯云上构建应用,相信后面会有越来越多开发者加入,我们将和所有开发者一起,共建云上的应用生态”,蒋杰表示。


2019-11-11 14:552453

评论

发布
暂无评论
发现更多内容

一键部署Palworld幻兽帕鲁服务器最佳实践

天翼云开发者社区

云计算 云服务器

flinkcdc 3.0 架构设计学习

Antgeek

flink 数据同步 flinkcdc

使用草料的状态面板功能,扫码即可查看设备状态

草料二维码

二维码 草料二维码

WorkPlus助力企业构建高效沟通与协作的即时通讯平台

WorkPlus

WorkPlus助力企业构建高效沟通与协作的即时通讯平台

WorkPlus

pd虚拟机专用windows系统镜像(m1/intel)

iMac小白

数字化商品计划管理:提升运营效率和竞争力的关键

第七在线

flinkcdc 3.0 尝鲜

Antgeek

flink 数据同步 flinkcdc

【LLM】提示工程技术提炼精华分享

EquatorCoco

架构 AI 前端开发 LLM

WorkPlus构建安全高效的内网通讯平台,助力企业内部协作

WorkPlus

Aiseesoft Mac Screen Recorder for Mac(屏幕录像截图工具)v2.2.22激活版

iMac小白

WorkPlus提供全方位的即时通讯解决方案,助力团队高效沟通与协作

WorkPlus

CubeFS源码分析系列(一) 创建Volume

总想做点什么

WIFI 6E/IPQ5018 WITH QCN9074 Deliver new data experiences

wallysSK

商品管理系统:服装品牌提升工作效率的利器

第七在线

Video Cut Crop Join for Mac(mac视频剪辑合并软件 )v3.7激活版

iMac小白

LigaAI 的 8 个年度关键词 | 2023 年度盘点

LigaAI

研发管理 研发效能度量 2023年终总结

Parallels Desktop 19 虚拟机 完美激活版 附pd19激活教程

iMac小白

远程桌面时连接不上远程计算机是什么问题

德迅云安全杨德俊

软件测试学习笔记丨控件交互识别

测试人

软件测试 自动化测试 测试开发

Wall Clock与Monotonic Clock

fliter

私有化部署的局域网即时通讯工具

WorkPlus

萨曼莎AI结合MoE技术创新应用: 引领AI Agents落地新格局

Geek_2d6073

dBpoweramp Music Converter for Mac(音频格式转换器)R2024.02.01直装版

iMac小白

聚道云软件连接器:连接薪人薪事与携程商旅的桥梁,出差管理效率的新篇章

聚道云软件连接器

案例分享

【节选】Go语言的100个错误使用场景|数据类型

不在线第一只蜗牛

Go 算法 前端 开发语言

AnyMP4 Audio Converter for Mac(多格式音频转换工具)v8.2.20激活版

iMac小白

Secureworks 威胁评分迎来网络安全 AI 新时代

财见

WorkPlus Meet视频会议系统,支持局域网部署

WorkPlus

Office 365 Mac破解版

iMac小白

开发技巧:Flask 项目如何自动生成 API 文档

Liam

Python flask 程序员 后端 API 文档

从引进到自研,腾讯大数据平台每日数据计算量超30万亿_服务革新_云加社区_InfoQ精选文章