写点什么

一文看懂大数据领域的六年巨变

  • 2019-02-03
  • 本文字数:914 字

    阅读完需:约 3 分钟

一文看懂大数据领域的六年巨变

在过去的 6 年里,本文的作者一直在关注 Data Eng Weekly(前身是 Hadoop Weekly),它是与大数据和数据工程相关内容的重要来源,涵盖了非常广泛的技术文章、产品公告和行业新闻。


今年,作者打算将分析 Data Eng 的归档内容(这些归档可追溯到 2013 年 1 月)作为其个人项目,来析过去 6 年中的大数据的趋势和变化。


为此,作者抓取并清理了 290 多期内容(使用了 Python 爬虫),保留了与技术、新闻和发布公告相关的文章片段。接下来,他对文章片段进行了一些基本的自然语言处理并应用了一些基本的过滤,最后生成关键字和下下列表。

过去七年的主要趋势

作者绘制了特定关键词被提及次数的月滚动平均值,并将它们绘制在同一个图表上。下面的图表说明了这些技术大约在什么时间点变得越来越流行。

Hadoop 与 Spark


从 2013 年 Spark 开始接管 Hadoop 的那一刻起,Hadoop 就开始稳步下滑。

Hadoop 与 Kafka


Kafka 成为所有大数据技术栈的主要构建块。

Hadoop 与 Kubernetes


Kubernestes 的崛起,尽管 Data Eng Weekly 并不十分关注 DevOps,但却也见证了从 2017 年开始围绕 Kubernetes 在各个领域的全面炒作。

年度热门关键词

我只是简单地画出在给定年份中被提及次数最多的 10 个关键词。

2013 年:Hadoop 的黄金时期!


所有原始的 Hadoop 项目都在这里:HDFS、YARN、MR、PIG……以及两大主流发行版 CDH 和 HDP,除此之外别无其他!

2014 年:Spark 的崛起!


Hadoop 总体上延续了它的统治地位,但 Spark 在这一年推出的第一个版本成为 2014 年最热门的话题!

2015 年:Kafka 来了!


Spark 取代 Hadoop 的一名位的置,Kafka 进入前三。大多数旧项目(HDFS、YARN、MR、PIG……)都没有进入前十。

2016 年:流式处理火热!


2016 年是流式处理年,Kafka 取代了 Hadoop 第二名的位置,Spark(流式处理)继续占据主导地位。

2017:一切向流式处理看齐!


与 2016 年的阵容相同,只是加入了 Flink。

2018 年:回到基础!


Kubernetes 首次亮相,我们回到了基础,试图找出如何管理(K8S)、调度(airflow)和运行(Spark、Kafka、存储……)我们的流。

2019 年:…


现在对 2019 年给出任何结论还为时过早,但看起来 K8s 将在 2019 年成为主流!


英文原文:


https://blog.marouni.fr/bidata-trends-analysis/


2019-02-03 17:006094
用户头像

发布了 731 篇内容, 共 451.9 次阅读, 收获喜欢 2002 次。

关注

评论

发布
暂无评论
发现更多内容

解决centos7.0安装mysql后出现access defind for user@'localhost'的错误

北桥苏

MySQL

CCIG 2023 百度飞桨分论坛:大模型时代的图象图形技术变革与实践

飞桨PaddlePaddle

MobPush 创建应用

MobTech袤博科技

【web 开发】快来给你的类定个标准 -PHP 的接口技术(64)

迷彩

php 接口 interface 三周年连更 类扩展

【自己更换模型】如何用 Serverless 一键部署 Stable Diffusion?

阿里巴巴云原生

阿里云 Serverless 云原生 动态模型

日常节省 30%计算资源:阿里云实时计算 Flink 自动调优实践

Apache Flink

大数据 flink 实时计算

假期充电,用阿里云 Serverless K8s + AIGC 搭建私人代码助理

阿里巴巴云原生

阿里云 Serverless Kubernetes 云原生 AIGC

技术同学如何提高职场话语权

老张

话语权 职场影响力

flutter系列之:做一个修改组件属性的动画

程序那些事

flutter 大前端 程序那些事

专访顶象CEO: 新一代AI如何增强验证码安全性

Geek_2d6073

openEuler 社区 2023 年 4 月运作报告

openEuler

Linux 开源 操作系统 openEuler 资讯

应用在虚机和容器场景下如何优雅上下线

华为云开源

微服务 云原生

ChatGPT火了,客服产业怎么办?

创智荟

知识计算 客服 ChatGPT 数字员工

轻量级思维导图工具:iMap Builder 免激活版

真大的脸盆

Mac 思维导图 Mac 软件

长三角生物医药产业加速跑,飞桨螺旋桨为创新药企、医药技术伙伴装上AI大模型引擎

飞桨PaddlePaddle

飞桨 生物医药

2023高质量Java面试题集锦:高级Java工程师面试八股汇总

采菊东篱下

Java 面试

百度王海峰团队荣获吴文俊人工智能科技进步奖特等奖,成果已应用于文心一言

飞桨PaddlePaddle

关于并发编程与线程安全的思考与实践 | 京东云技术团队

京东科技开发者

并发编程 线程安全 java 并发 企业号 5 月 PK 榜

IaaS预留实例在线交易策略详解

天翼云开发者社区

云计算 大数据 云服务

研发效能治理:复杂性

码猿外

研发效能 工程效能

小程序:技术标准与生态的演变

没有用户名丶

精通Vue.js系列实例教程 │ Vue组件的数据监听

TiAmo

Vue Web Worker 监听 watche

出海无从下手?看社交泛娱乐出海「第一趁手工具」怎么说

融云 RongCloud

互联网 社交 融云 泛娱乐 出海

分享:两年两度升级数据库,我们经历了什么

OceanBase 数据库

数据库 oceanbase

走进南京邮电大学!龙蜥导师面对面分享如何通过开源经历获得实习/工作机会?| 开源之夏 2023

OpenAnolis小助手

操作系统 实习 龙蜥社区 开源之夏 南京邮电大学

Spring Boot 单体应用一键升级成 Spring Cloud Alibaba

阿里巴巴云原生

阿里云 微服务 云原生 spring cloud alibaba

QUIC在京东直播的应用与实践 | 京东云技术团队

京东科技开发者

直播 直播技术 QUIC 企业号 5 月 PK 榜

前方高能!融云《社交泛娱乐出海作战地图》来袭,前 100 位免费领

融云 RongCloud

图片 社交 融云 泛娱乐 出海

统一门户的快速构建--基于小程序技术的一种可能

FinFish

统一门户 小程序容器 小程序化 小程序技术

最高等级!Apache RocketMQ 入选可信开源项目星云象限领导型象限

阿里巴巴云原生

阿里云 云原生 Apache RocketMQ

您的数据可以压缩吗?

ScaleFlux

存储成本 存储技术 数据压缩

一文看懂大数据领域的六年巨变_大数据_Abbass Marouni_InfoQ精选文章