QCon北京「鸿蒙专场」火热来袭!即刻报名,与创新同行~ 了解详情
写点什么

一文看懂大数据领域的六年巨变

  • 2019-02-03
  • 本文字数:914 字

    阅读完需:约 3 分钟

一文看懂大数据领域的六年巨变

在过去的 6 年里,本文的作者一直在关注 Data Eng Weekly(前身是 Hadoop Weekly),它是与大数据和数据工程相关内容的重要来源,涵盖了非常广泛的技术文章、产品公告和行业新闻。


今年,作者打算将分析 Data Eng 的归档内容(这些归档可追溯到 2013 年 1 月)作为其个人项目,来析过去 6 年中的大数据的趋势和变化。


为此,作者抓取并清理了 290 多期内容(使用了 Python 爬虫),保留了与技术、新闻和发布公告相关的文章片段。接下来,他对文章片段进行了一些基本的自然语言处理并应用了一些基本的过滤,最后生成关键字和下下列表。

过去七年的主要趋势

作者绘制了特定关键词被提及次数的月滚动平均值,并将它们绘制在同一个图表上。下面的图表说明了这些技术大约在什么时间点变得越来越流行。

Hadoop 与 Spark


从 2013 年 Spark 开始接管 Hadoop 的那一刻起,Hadoop 就开始稳步下滑。

Hadoop 与 Kafka


Kafka 成为所有大数据技术栈的主要构建块。

Hadoop 与 Kubernetes


Kubernestes 的崛起,尽管 Data Eng Weekly 并不十分关注 DevOps,但却也见证了从 2017 年开始围绕 Kubernetes 在各个领域的全面炒作。

年度热门关键词

我只是简单地画出在给定年份中被提及次数最多的 10 个关键词。

2013 年:Hadoop 的黄金时期!


所有原始的 Hadoop 项目都在这里:HDFS、YARN、MR、PIG……以及两大主流发行版 CDH 和 HDP,除此之外别无其他!

2014 年:Spark 的崛起!


Hadoop 总体上延续了它的统治地位,但 Spark 在这一年推出的第一个版本成为 2014 年最热门的话题!

2015 年:Kafka 来了!


Spark 取代 Hadoop 的一名位的置,Kafka 进入前三。大多数旧项目(HDFS、YARN、MR、PIG……)都没有进入前十。

2016 年:流式处理火热!


2016 年是流式处理年,Kafka 取代了 Hadoop 第二名的位置,Spark(流式处理)继续占据主导地位。

2017:一切向流式处理看齐!


与 2016 年的阵容相同,只是加入了 Flink。

2018 年:回到基础!


Kubernetes 首次亮相,我们回到了基础,试图找出如何管理(K8S)、调度(airflow)和运行(Spark、Kafka、存储……)我们的流。

2019 年:…


现在对 2019 年给出任何结论还为时过早,但看起来 K8s 将在 2019 年成为主流!


英文原文:


https://blog.marouni.fr/bidata-trends-analysis/


2019-02-03 17:006152
用户头像

发布了 731 篇内容, 共 460.0 次阅读, 收获喜欢 2004 次。

关注

评论

发布
暂无评论
发现更多内容

MatrixCube揭秘102——300行实现的完整分布式存储系统MatrixKV

MatrixOrigin

MatrixOrigin MatrixOne 矩阵起源 MatrixCube MatrixKV

王者荣耀商城异地多活架构设计

爱晒太阳的大白

TCP拥塞控制详解 | 7. 超越TCP

俞凡

算法 网络 TCP拥塞控制

HarmonyoS快速入门:Hello world

逝缘~

7月月更

模块7(王者荣耀商城异地多活架构设计)

Geek_701557

推荐 6 个实用的 Vue 组件库

devpoint

JavaScript Vue 前端开发 7月月更

数字化转型的两种误区

奔向架构师

数据仓库 数据资产 7月月更

数据库每日一题---第25天:银行账户概要 II

知心宝贝

数据库 云计算 前端 后端 7月月更

查找——平衡二叉树

乔乔

7月月更

Spring项目中如何正确处理对象依赖

技术小生

spring 7月月更

【刷题记录】13. 罗马数字转整数

WangNing

7月月更

qt 实现遍历文件夹

小肉球

qt 7月月更

架构实战营|模块7

KDA

#架构实战营

知其然,而知其所以然,JS 对象创建与继承

掘金安东尼

JavaScript 前端 设计模式 7月月更

博弈论(depu)与投资(40/100)

hackstoic

投资

李宏毅《机器学习》|1. Introduction of this course(机器学习介绍)

AXYZdong

机器学习 7月月更

C# SerialPort配置和属性了解

IC00

C# 7月月更

MFC|框架下自绘CEdit控件

中国好公民st

c++ 7月月更

Tortoisegit工具的安装和使用

空城机

git Tortoisegit 7月月更

如何使用SVG制作沿任意路径排布的文字效果

南极一块修炼千年的大冰块

7月月更

使用Java获取给定日期所在周的第一天

李印

Java 小工具

python小知识-rethinking python 迭代器

AIWeker

Python python小知识 7月月更

OpenCV编程:OpenCV3.X训练自己的分类器

DS小龙哥

7月月更

基于CSS mask-image 实现炫酷图片过渡效果之星球大战

南城FE

前端 动画效果 7月月更 过渡

Azkaban 安装文档

怀瑾握瑜的嘉与嘉

Azkaban 7月月更

Flutter 使用 AnimatedSwitcher 做场景切换

岛上码农

flutter ios 前端 安卓开发 7月月更

getchar()

謓泽

7月月更

MatrixCube揭秘 101——MatrixCube的功能与架构

MatrixOrigin

分布式 MatrixOrigin MatrixOne 矩阵起源 MatrixCube

C#入门系列(二十二) -- 面向对象之多态

陈言必行

7月月更

一文看懂大数据领域的六年巨变_大数据_Abbass Marouni_InfoQ精选文章