QCon北京「鸿蒙专场」火热来袭!即刻报名,与创新同行~ 了解详情
写点什么

“后 Hadoop 时代”技术热力跃迁:《2022 开源大数据热力报告》重磅发布

  • 2022-11-05
    北京
  • 本文字数:1365 字

    阅读完需:约 4 分钟

“后Hadoop时代”技术热力跃迁:《2022开源大数据热力报告》重磅发布

11 月 5 日,在 2022 云栖大会一体化大数据智能峰会上,由开放原子开源基金会、X-lab 开放实验室和阿里巴巴开源委员会联合出品的《2022年开源大数据热力报告》重磅发布。

 

开放原子开源基金会副秘书长刘京娟女士对报告进行了深度解读。报告基于公开数据研究最活跃的 102 个开源大数据项目,探寻出开源大数据技术发展背后的“摩尔定律”:每隔 40 个月,开源项目热力值就会翻一倍,技术完成一轮更新迭代。在过去 8 年里,发生了 5 次较大规模的技术热力跃迁,多元化、一体化、云原生成为当前开源大数据发展趋势的最显著特征。



定量分析“后 Hadoop 时代”开源趋势


Hadoop 作为开源大数据技术的起源,兴起于 2006 年,至今已有 16 年历史。我们收集了从 Hadoop 发展第 10 年(即 2015 年)至今的相关公开数据,并进行了关联分析,定义了开源项目热力值研究模型,使用量化指标,来刻画开源项目的开发迭代活跃度和受开发者欢迎程度。

 

报告所呈现的开源大数据热力图,从技术全景、技术栈分类以及项目维度对入围项目的热力表现进行洞察,将项目进程中的关键事件与热力表现关联分析,并访谈了开源基金会、知名开源项目等领域专家,尝试找到项目健康发展一般规律,并对有效提升项目影响力的方法论进行了归纳总结。

 

开源大数据技术的“摩尔定律”即将打破


报告发现,每隔 40 个月,热力值会提升 1 倍,开源大数据完成一轮技术迭代升级,而且技术周期在加速缩短。在 8 年时间内,发生了多轮热力变迁,反映出背后技术的更新换代趋势。开发者对「数据查询与分析」保持了长期的开发热情,这一技术栈连续 8 年位于热力值榜首。2017 年,「流处理」热力值超过「批处理」,大数据处理进入实时阶段。随着数据规模越来越大,数据结构更多样化,「数据集成」从 2020 年开始爆发式增长。

三大热力趋势:多元化、一体化和云原生


用户需求多样化推动技术多元化。「数据湖」以 34%的热力值年均复合增长率高居热力值增速第一位,「交互式分析」、「DataOps」紧随其后,分列第二、三位 。而原有 Hadoop 体系的产品迭代则趋于稳定,热力值年均复合增长率为 1%。


从 2015 年开始,计算部分率先进入「一体化」演进历程,其中的典型代表「流批一体」在 2019 年出现第一个热力峰值。以数据湖存储为代表的存储一体化从 2019 年起进入了一个新的发展阶段,涌现了 Delta Lake、 Iceberg 和 Hudi 等热点项目。


云原生大规模重构开源技术栈。诞生于云原生时代的开源项目如雨后春笋般破土成长。「数据集成」、「数据存储」、「数据开发与管理」等领域都发生了非常大的项目更迭,新项目热力值占比已经超过了 80%。

开源大数据热力榜单 TOP30


本报告从 102 个入围项目中,评选出了 TOP30 热力榜单。Kibana 以 989.40 的热力值高居榜首。ClickHouse(数据查询与分析)、Airflow(数据调度与编排)、Flink(流处理)、Airbyte(数据集成)分别摘得各自细分领域的 TOP1。Pulsar、Doris、StarRocks、DolphinScheduler、SeaTunnel 等一众中国开源项目也表现出高热力趋势。把解决用户痛点作为核心竞争力,是这些优秀开源项目的共同特征,这一特征保证它们与时俱进,成为热力趋势中的“常青树”。

 


致谢:感谢开源中国、InfoQ 和阿里云开发者社区的战略支持,感谢对本报告内容产出做出重要贡献的 32 位专家和贡献者,感谢合作社区 CSDN、DataFun、Segmentfault 思否、开源社等。

 

完整报告下载地址:https://www.infoq.cn/minibook/bKbCdRfqi0X9AQkQBPGl

 

2022-11-05 15:056777

评论

发布
暂无评论
发现更多内容

渗透测试信息收集之子域名收集总结

网络安全学海

网络安全 信息安全 渗透测试 WEB安全 漏洞挖掘

猛肝《Java权威面试指南(阿里版)》,“金三银四”offer必有你的一份!

Java架构追梦

Java 程序员 java面试 后端开发

netty系列之:netty对marshalling的支持

程序那些事

Java Netty 程序那些事 4月月更

如何构建产品帮助中心

小炮

帮助中心

iOS开发面试-如何打破30岁的中年危机

iOSer

ios iOS面试

这个导航网站,是设计师福音!

小炮

导航网站

渗透测试面试问题,内含大量渗透技巧

喀拉峻

网络安全 安全 渗透测试

化繁为简!阿里新产亿级流量系统设计核心原理高级笔记(终极版)

Java全栈架构师

Java 程序员 架构 面试 架构师

低成本、快速造测试数据,这个造数工具我后悔推荐晚了!

Liam

测试 Postman 自动化测试 测试工具 测试自动化

这两个实用的导航网站,推荐给你!

小炮

导航网站

智能家居新浪潮 物联网潜力无限

Geek-peri

小程序 物联网 智能家居

从社会学角度解读机器学习

小鲸数据

机器学习 深度学习 学习方法 损失函数 梯度下降

EMQ 云边协同解决方案在智慧工厂建设中的应用

EMQ映云科技

物联网 IoT 智慧工厂 边云协同 emq

Pipy MQTT 代理之(四)安全性

Flomesh

mqtt Proxy Pipy

如何在众筹中充分利用区块链技术?

CECBC

小程序生态成为私域基建必选项

Geek-peri

巧用PostgreSQL高可用中间件,99999业务服务持续性不再是DBA的天花板

博文视点Broadview

龙蜥开发者说:从零开始的创造,是动力也是挑战 | 第5期

OpenAnolis小助手

操作系统 开发者故事 龙蜥开发者说 桌面DDE

物联网+车载小程序进入发展快车道

Geek-peri

小程序 车联网 物联网

观察者模式 vs 发布订阅模式,千万不要再混淆了

战场小包

前端 设计模式 4月月更

即时通讯软件建设,聚焦数据安全

a13823115807

驱动现代金融发展的“元宇宙路径”

CECBC

linux监控软件有哪些?用什么软件好?

行云管家

Linux 运维 监控软件

云仿真平台有哪些特点

3DCAT实时渲染

云仿真

国产GPU芯片概述

Finovy Cloud

人工智能 GPU服务器 GPU算力

数字经济多项技术突围 元宇宙被赋予更多想象

CECBC

FastDFS 海量小文件存储解决之道

vivo互联网技术

fastdfs 数据存储 分布式,

Windows服务器运维用什么软件好?不想加班了!

行云管家

运维 IT运维 行云管家 服务器运维 Windows服务器

阿里云视频云互动虚拟技术,打造虚拟直播最佳沉浸式体验

阿里云CloudImagine

直播

开拓新领域 OpenHarmony多行业软件发行版逐步落地

科技汇

Kylin、Druid、ClickHouse该如何选择?

五分钟学大数据

4月月更

“后Hadoop时代”技术热力跃迁:《2022开源大数据热力报告》重磅发布_语言 & 开发_阿里巴巴开源委员会_InfoQ精选文章