写点什么

一文看懂大数据领域的六年巨变

  • 2019-02-03
  • 本文字数:914 字

    阅读完需:约 3 分钟

一文看懂大数据领域的六年巨变

在过去的 6 年里,本文的作者一直在关注 Data Eng Weekly(前身是 Hadoop Weekly),它是与大数据和数据工程相关内容的重要来源,涵盖了非常广泛的技术文章、产品公告和行业新闻。


今年,作者打算将分析 Data Eng 的归档内容(这些归档可追溯到 2013 年 1 月)作为其个人项目,来析过去 6 年中的大数据的趋势和变化。


为此,作者抓取并清理了 290 多期内容(使用了 Python 爬虫),保留了与技术、新闻和发布公告相关的文章片段。接下来,他对文章片段进行了一些基本的自然语言处理并应用了一些基本的过滤,最后生成关键字和下下列表。

过去七年的主要趋势

作者绘制了特定关键词被提及次数的月滚动平均值,并将它们绘制在同一个图表上。下面的图表说明了这些技术大约在什么时间点变得越来越流行。

Hadoop 与 Spark


从 2013 年 Spark 开始接管 Hadoop 的那一刻起,Hadoop 就开始稳步下滑。

Hadoop 与 Kafka


Kafka 成为所有大数据技术栈的主要构建块。

Hadoop 与 Kubernetes


Kubernestes 的崛起,尽管 Data Eng Weekly 并不十分关注 DevOps,但却也见证了从 2017 年开始围绕 Kubernetes 在各个领域的全面炒作。

年度热门关键词

我只是简单地画出在给定年份中被提及次数最多的 10 个关键词。

2013 年:Hadoop 的黄金时期!


所有原始的 Hadoop 项目都在这里:HDFS、YARN、MR、PIG……以及两大主流发行版 CDH 和 HDP,除此之外别无其他!

2014 年:Spark 的崛起!


Hadoop 总体上延续了它的统治地位,但 Spark 在这一年推出的第一个版本成为 2014 年最热门的话题!

2015 年:Kafka 来了!


Spark 取代 Hadoop 的一名位的置,Kafka 进入前三。大多数旧项目(HDFS、YARN、MR、PIG……)都没有进入前十。

2016 年:流式处理火热!


2016 年是流式处理年,Kafka 取代了 Hadoop 第二名的位置,Spark(流式处理)继续占据主导地位。

2017:一切向流式处理看齐!


与 2016 年的阵容相同,只是加入了 Flink。

2018 年:回到基础!


Kubernetes 首次亮相,我们回到了基础,试图找出如何管理(K8S)、调度(airflow)和运行(Spark、Kafka、存储……)我们的流。

2019 年:…


现在对 2019 年给出任何结论还为时过早,但看起来 K8s 将在 2019 年成为主流!


英文原文:


https://blog.marouni.fr/bidata-trends-analysis/


2019-02-03 17:006111
用户头像

发布了 731 篇内容, 共 454.3 次阅读, 收获喜欢 2003 次。

关注

评论

发布
暂无评论
发现更多内容

聊聊低代码的表单引擎

高端章鱼哥

低代码 低代码开发 JNPF

开源社区寻找八月创作之星!你准备好了吗~

Openlab_cosmoplat

人工智能 开源

技术分享 | web前端的HTML浅析

霍格沃兹测试开发学社

技术分享 | 黑盒测试方法论-判定表

霍格沃兹测试开发学社

【7.28-8.4】写作社区优秀技术博文一览

InfoQ写作社区官方

2023最新版Java八股文汇总(附1100道面试题及答案详解)

采菊东篱下

Java 面试

面部表情识别在教育领域的应用

来自四九城儿

准确率提升近4%,自研ASR模型助力公安机关筑牢反诈安全网

中关村科金

“新一代企业数字化联盟”走进嘉定,数划云与众多企业一起探讨数字化转型

数划云

探索大模型应用,解决企业数字化转型“最后一公里”

中关村科金

【腾讯云Cloud Studio实战训练营】如何成为一名合格的Python爬虫“念咒师”(基于ChatGpt)

孤寒者

Python Cloud Studio Python爬虫 念咒师 念咒编程

面部表情识别在安全领域的应用

来自四九城儿

面部表情识别的伦理问题

来自四九城儿

app测试中常用的Android模拟器

霍格沃兹测试开发学社

技术分享 | 白盒测试方法论

霍格沃兹测试开发学社

私有化部署企业IM即时通讯:提升效率、防止泄密、高效协同办公

BeeWorks

技术分享 | 网页 frame 与多窗口处理

霍格沃兹测试开发学社

局域网部署,用WorkPlus视频会议保密又安全

BeeWorks

AI +悦数图数据库:图技术与大语言模型 LLM 结合,打造下一代知识图谱应用

最新动态

2023-08-04:村里面一共有 n 栋房子 我们希望通过建造水井和铺设管道来为所有房子供水。 对于每个房子 i,我们有两种可选的供水方案: 一种是直接在房子内建造水井 成本为 wells[i -

福大大架构师每日一题

福大大架构师每日一题

技术分享 | Selenium多浏览器处理

霍格沃兹测试开发学社

模块7作业 王者荣耀线上商城异地多活架构设计

sandywrh

详解 HashMap 的底层实现原理

树上有只程序猿

Java 数据结构 hashmap 哈希

组织门户支持成员自主公开,快速搭建内容|ModelWhale 版本更新

ModelWhale

云计算 数据分析 API 算力 数据门户

Rust中的高吞吐量流处理

高端章鱼哥

rust 流处理

盘点国产CPU“六君子”之中科海光发展史

石云升

cpu 微处理器 中科海光

扎根x86市场稳步前进-海光投研报告解读

三掌柜

研究报告

一文看懂大数据领域的六年巨变_大数据_Abbass Marouni_InfoQ精选文章