HarmonyOS开发者限时福利来啦!最高10w+现金激励等你拿~ 了解详情
写点什么

“后 Hadoop 时代”技术热力跃迁:《2022 开源大数据热力报告》重磅发布

  • 2022-11-05
    北京
  • 本文字数:1365 字

    阅读完需:约 4 分钟

“后Hadoop时代”技术热力跃迁:《2022开源大数据热力报告》重磅发布

11 月 5 日,在 2022 云栖大会一体化大数据智能峰会上,由开放原子开源基金会、X-lab 开放实验室和阿里巴巴开源委员会联合出品的《2022年开源大数据热力报告》重磅发布。

 

开放原子开源基金会副秘书长刘京娟女士对报告进行了深度解读。报告基于公开数据研究最活跃的 102 个开源大数据项目,探寻出开源大数据技术发展背后的“摩尔定律”:每隔 40 个月,开源项目热力值就会翻一倍,技术完成一轮更新迭代。在过去 8 年里,发生了 5 次较大规模的技术热力跃迁,多元化、一体化、云原生成为当前开源大数据发展趋势的最显著特征。



定量分析“后 Hadoop 时代”开源趋势


Hadoop 作为开源大数据技术的起源,兴起于 2006 年,至今已有 16 年历史。我们收集了从 Hadoop 发展第 10 年(即 2015 年)至今的相关公开数据,并进行了关联分析,定义了开源项目热力值研究模型,使用量化指标,来刻画开源项目的开发迭代活跃度和受开发者欢迎程度。

 

报告所呈现的开源大数据热力图,从技术全景、技术栈分类以及项目维度对入围项目的热力表现进行洞察,将项目进程中的关键事件与热力表现关联分析,并访谈了开源基金会、知名开源项目等领域专家,尝试找到项目健康发展一般规律,并对有效提升项目影响力的方法论进行了归纳总结。

 

开源大数据技术的“摩尔定律”即将打破


报告发现,每隔 40 个月,热力值会提升 1 倍,开源大数据完成一轮技术迭代升级,而且技术周期在加速缩短。在 8 年时间内,发生了多轮热力变迁,反映出背后技术的更新换代趋势。开发者对「数据查询与分析」保持了长期的开发热情,这一技术栈连续 8 年位于热力值榜首。2017 年,「流处理」热力值超过「批处理」,大数据处理进入实时阶段。随着数据规模越来越大,数据结构更多样化,「数据集成」从 2020 年开始爆发式增长。

三大热力趋势:多元化、一体化和云原生


用户需求多样化推动技术多元化。「数据湖」以 34%的热力值年均复合增长率高居热力值增速第一位,「交互式分析」、「DataOps」紧随其后,分列第二、三位 。而原有 Hadoop 体系的产品迭代则趋于稳定,热力值年均复合增长率为 1%。


从 2015 年开始,计算部分率先进入「一体化」演进历程,其中的典型代表「流批一体」在 2019 年出现第一个热力峰值。以数据湖存储为代表的存储一体化从 2019 年起进入了一个新的发展阶段,涌现了 Delta Lake、 Iceberg 和 Hudi 等热点项目。


云原生大规模重构开源技术栈。诞生于云原生时代的开源项目如雨后春笋般破土成长。「数据集成」、「数据存储」、「数据开发与管理」等领域都发生了非常大的项目更迭,新项目热力值占比已经超过了 80%。

开源大数据热力榜单 TOP30


本报告从 102 个入围项目中,评选出了 TOP30 热力榜单。Kibana 以 989.40 的热力值高居榜首。ClickHouse(数据查询与分析)、Airflow(数据调度与编排)、Flink(流处理)、Airbyte(数据集成)分别摘得各自细分领域的 TOP1。Pulsar、Doris、StarRocks、DolphinScheduler、SeaTunnel 等一众中国开源项目也表现出高热力趋势。把解决用户痛点作为核心竞争力,是这些优秀开源项目的共同特征,这一特征保证它们与时俱进,成为热力趋势中的“常青树”。

 


致谢:感谢开源中国、InfoQ 和阿里云开发者社区的战略支持,感谢对本报告内容产出做出重要贡献的 32 位专家和贡献者,感谢合作社区 CSDN、DataFun、Segmentfault 思否、开源社等。

 

完整报告下载地址:https://www.infoq.cn/minibook/bKbCdRfqi0X9AQkQBPGl

 

2022-11-05 15:056401

评论

发布
暂无评论
发现更多内容

如何实现H.264的实时传输?

拍乐云Pano

云服务器在市场变化下的技术突破,企业运维中的基础保障

九河云安全

嗨!你有一封来自百度世界大会的“情书”,818等你开启

百度大脑

人工智能

极客星球 | Android SDK架构设计之路

MobTech袤博科技

架构 sdk andiod

DCS_FunTester分布式压测框架更新(二)

FunTester

分布式 性能测试 测试框架 测试开发 FunTester

员工流动大难管理?织信低代码+人事管理系统轻松掌控员工档案信息

优秀

低代码

中国如何应对中美博弈?

石云升

学习 贸易战 8月日更

【共识专栏】HotStuff共识

趣链科技

区块链 共识机制 拜占庭容错 共识算法

GitHub星标63K霸榜半月!阿里大牛的微服务分布式架构笔记已上线

Java 编程 IT 计算机 知识

滴滴架构师被迫离职后,只留下这份731页Java程序性能优化手册

Java 编程 架构 面试 调优

如何快速定位程序Core?

百度Geek说

Linux 后端

冲击“金九银十”的利器!《Java权威面试指南(阿里版)》人手一份吊打面试官轻轻松松!

Java 编程 IT 计算机 知识分享

深耕城市治理场景,百度智能云联合慧联无限推内涝智能检测预警

百度大脑

人工智能 洪水

架构训练营 - 模块四 - 作业

姑射仙人

架构训练营

微博SDK初始化问题 please init sdk before use it. Wb.install()

mengxn

微博sdk

啃了三个月!靠着这份大厂Java面试全秘籍,成功入职京东,税前30K

Java 程序员 架构 面试 计算机

如何在多云环境中建立信任

云计算

Aosp 之 Property

Qunar技术沙龙

android API properties 字典树 内存映射

博睿数据分布式手机真机监测+两大核心技术,轻松掌控短信服务质量与用户体验

博睿数据

fil挖矿官网有哪些?fil挖矿平台有哪些?

fil挖矿平台有哪些 fil挖矿官网有哪些

极客星球 | 应用开发的性能优化探索

MobTech袤博科技

性能

远程办公一星期,竟等来了阿里新零售视频面(Java岗,已过2面)

公众号_愿天堂没有BUG

Java 编程 程序员 架构 面试

运维工程师核心工作是什么?用什么运维工具好?

行云管家

云计算 运维 IT运维

一个完整的内网渗透是什么样子的

网络安全学海

网络安全 信息安全 网络 渗透测试 漏洞分析

小心这个陷阱:为什么总是你赔钱?

非著名程序员

认知提升 个人提升 投资理财 8月日更

肺炎在家“闭关”,阿里竟发来视频面试,4面顺利拿下offer

公众号_愿天堂没有BUG

Java 编程 程序员 架构 面试

iOS 开发技术栈与进阶

iOSer

ios 面试 iOS 知识体系 iOS技术栈

去中心化DeFi系统开发

Geek_23f0c3

智能合约 DeFi去中心化系统开发 DAPP智能合约交易系统开发

【Takin应用日记】记一次TransmittableThreadLocal引起的业务异常

TakinTalks稳定性社区

高可用 性能压测 生产环境全链路压测 takin

通俗易懂的ReentrantLock,不懂你来砍我

程序猿阿星

AQS 公平锁 非公平锁 独占锁 ReentrantLock;

TCP 四次挥手

W🌥

计算机网络 TCP/IP 8月日更

“后Hadoop时代”技术热力跃迁:《2022开源大数据热力报告》重磅发布_语言 & 开发_阿里巴巴开源委员会_InfoQ精选文章