写点什么

“后 Hadoop 时代”技术热力跃迁:《2022 开源大数据热力报告》重磅发布

  • 2022-11-05
    北京
  • 本文字数:1365 字

    阅读完需:约 4 分钟

“后Hadoop时代”技术热力跃迁:《2022开源大数据热力报告》重磅发布

11 月 5 日,在 2022 云栖大会一体化大数据智能峰会上,由开放原子开源基金会、X-lab 开放实验室和阿里巴巴开源委员会联合出品的《2022年开源大数据热力报告》重磅发布。

 

开放原子开源基金会副秘书长刘京娟女士对报告进行了深度解读。报告基于公开数据研究最活跃的 102 个开源大数据项目,探寻出开源大数据技术发展背后的“摩尔定律”:每隔 40 个月,开源项目热力值就会翻一倍,技术完成一轮更新迭代。在过去 8 年里,发生了 5 次较大规模的技术热力跃迁,多元化、一体化、云原生成为当前开源大数据发展趋势的最显著特征。



定量分析“后 Hadoop 时代”开源趋势


Hadoop 作为开源大数据技术的起源,兴起于 2006 年,至今已有 16 年历史。我们收集了从 Hadoop 发展第 10 年(即 2015 年)至今的相关公开数据,并进行了关联分析,定义了开源项目热力值研究模型,使用量化指标,来刻画开源项目的开发迭代活跃度和受开发者欢迎程度。

 

报告所呈现的开源大数据热力图,从技术全景、技术栈分类以及项目维度对入围项目的热力表现进行洞察,将项目进程中的关键事件与热力表现关联分析,并访谈了开源基金会、知名开源项目等领域专家,尝试找到项目健康发展一般规律,并对有效提升项目影响力的方法论进行了归纳总结。

 

开源大数据技术的“摩尔定律”即将打破


报告发现,每隔 40 个月,热力值会提升 1 倍,开源大数据完成一轮技术迭代升级,而且技术周期在加速缩短。在 8 年时间内,发生了多轮热力变迁,反映出背后技术的更新换代趋势。开发者对「数据查询与分析」保持了长期的开发热情,这一技术栈连续 8 年位于热力值榜首。2017 年,「流处理」热力值超过「批处理」,大数据处理进入实时阶段。随着数据规模越来越大,数据结构更多样化,「数据集成」从 2020 年开始爆发式增长。

三大热力趋势:多元化、一体化和云原生


用户需求多样化推动技术多元化。「数据湖」以 34%的热力值年均复合增长率高居热力值增速第一位,「交互式分析」、「DataOps」紧随其后,分列第二、三位 。而原有 Hadoop 体系的产品迭代则趋于稳定,热力值年均复合增长率为 1%。


从 2015 年开始,计算部分率先进入「一体化」演进历程,其中的典型代表「流批一体」在 2019 年出现第一个热力峰值。以数据湖存储为代表的存储一体化从 2019 年起进入了一个新的发展阶段,涌现了 Delta Lake、 Iceberg 和 Hudi 等热点项目。


云原生大规模重构开源技术栈。诞生于云原生时代的开源项目如雨后春笋般破土成长。「数据集成」、「数据存储」、「数据开发与管理」等领域都发生了非常大的项目更迭,新项目热力值占比已经超过了 80%。

开源大数据热力榜单 TOP30


本报告从 102 个入围项目中,评选出了 TOP30 热力榜单。Kibana 以 989.40 的热力值高居榜首。ClickHouse(数据查询与分析)、Airflow(数据调度与编排)、Flink(流处理)、Airbyte(数据集成)分别摘得各自细分领域的 TOP1。Pulsar、Doris、StarRocks、DolphinScheduler、SeaTunnel 等一众中国开源项目也表现出高热力趋势。把解决用户痛点作为核心竞争力,是这些优秀开源项目的共同特征,这一特征保证它们与时俱进,成为热力趋势中的“常青树”。

 


致谢:感谢开源中国、InfoQ 和阿里云开发者社区的战略支持,感谢对本报告内容产出做出重要贡献的 32 位专家和贡献者,感谢合作社区 CSDN、DataFun、Segmentfault 思否、开源社等。

 

完整报告下载地址:https://www.infoq.cn/minibook/bKbCdRfqi0X9AQkQBPGl

 

2022-11-05 15:056861

评论

发布
暂无评论
发现更多内容

第二周课后练习

jizhi7

面向对象设计原则----里氏替换原则(LSP)

张荣召

揭秘开源项目 Apache Pulsar 如何挑战 Kafka

Apache Pulsar

kafka 开源 云原生 Apache Pulsar 消息中间件

基于 iOS14 系统的游戏卡顿问题解决方案

白开水

typescript 游戏开发 iOS14 游戏卡顿 ios开发

通过女朋友来通俗易懂讲解“接口回调”,一不小心就被绿

小松漫步

Java 编程 接口 代码

编程语言的本质

张荣召

架构师训练营第二周作业

文智

极客大学架构师训练营

举办线下活动现场管理需要注意哪些事项?

boshi

管理 探索与实践 热门活动

架构师训练营 - 第二周总结

一个节点

极客大学架构师训练营

架构师训练营-第二周作业

一个节点

极客大学架构师训练营

面向对象设计原则--开放关闭原则(OCP)

张荣召

看动画学算法之:排序-基数排序

程序那些事

算法 数据结构和算法 看动画学算法 算法和数据结构

架构师训练营第二周学习总结

张荣召

第二周

scorpion

面向对象设计原则----依赖倒置原则(DIP)

张荣召

面向对象设计原则----单一职责原则(SRP)

张荣召

极客大学架构师训练营第二周课后总结

jizhi7

依赖倒置原则和接口隔离原则练习

知行合一

架构师训练营第二周学习总结

成长者

极客大学架构师训练营

第二周 框架设计作业

蓝黑

极客大学架构师训练营

Serverless 简介

木易杨

云计算 Serverless AWS

2.框架设计-依赖倒置原则,接口隔离原则

博古通今小虾米

使用Spring Cloud Stream玩转RabbitMQ,RocketMQ和Kafka

Barry的异想世界

kafka RocketMQ RabbitMQ 消息队列 spring cloud stream

架构训练营-week2-作业

于成龙

作业 架构训练营

架构一期第二周作业

Airs

TensorFlow 篇 | TensorFlow 2.x 基于 Keras 的多节点分布式训练

Alex

tensorflow keras 分布式训练 AllReduce

SOLID原则

第二周 框架学习-作业

刘希文

优化Banner广告收入的7种策略

易观大数据

架构师训练营,第二周总结

子文

第二周总结

Geek_ac4080

“后Hadoop时代”技术热力跃迁:《2022开源大数据热力报告》重磅发布_语言 & 开发_阿里巴巴开源委员会_InfoQ精选文章