架构师特刊:Hadoop十年回顾

架构师特刊:Hadoop十年回顾

发布于:2016-05-05 02:09
Hadoop于2006年1月28日诞生,至今已有10年,它改变了企业对数据的存储、处理和分析的过程,加速了大数据的发展,形成了自己的极其火爆的技术生态圈,并受到非常广泛的应用。在2016年Hadoop十岁生日之际,InfoQ策划了一个Hadoop热点系列文章,为大家梳理Hadoop这十年的变化,技术圈的生态状况,回顾以前,激励以后。
查看更多
下载此书

作者 Kyligence 联合创始人兼 CTO 李扬

自从 2006 年 Hadoop 的缔造者们提交第一行代码已经过去了整整十年。有人说近来 Hadoop 核心社区活跃度下降,又面临如 Spark 和 Mesos 的强大挑战。Hadoop 的现状如何,未来又会怎样?

说到 Hadoop,有狭义和广义两种理解。狭义指 Apache Hadoop 开源项目本身,由 HDFS、YARN、MapReduce 三部分组成的核心。而广义来说,Hadoop 生态系统不仅仅是那只黄色的小象,而是以它为中心的整个动物园!经过了十年的风雨锤炼,Hadoop 核心已经非常完善,如果它的邮件列表活跃度有所下降,我毫不惊讶。有良好的技术服务,运行稳定,自然不需要来问问题。这反而说明了 Hadoop 核心社区的成熟和稳定,参考 Maven 就明白了,不十分活跃,但非常成熟,有广大的用户群体。

Hadoop 生态系统经过多年的发展,俨然已经成为大数据平台的事实标准,被世界范围内几乎所有的高科技公司一致采用(Google 大概是唯一的例外)。其底层由 HDFS 和 YARN 组成集群操作系统,之上有如 MapReduce 和 Spark 的运算框架,有如 HBase 和 Phoenix 的数据管理,有如 Zookeeper 和 Oozie 的协作模块,有如 Hive 和 Kylin 的数据分析,有如 Storm 和 Spark Streaming 的流式处理,有如 Mahout 和 Spark ML 的机器学习,有如 Ranger 和 Eagle 的安全监控等等。其覆盖大数据从采集到存储,从运算到分析,从安全到监控,无所不包,无所不有。如此强大的生态系统,已经完成了对大数据技术的事实垄断。试想如果有人要摒弃 Hadoop 从零做起,如何能抛开与这么多相关技术的合作?即便强大如 Spark 有一天完全取代了 MapReduce,那也只是默默地替换了整个 Hadoop 拼图中的一块,也还是免不了被潜移默化慢慢融入 Hadoop 生态圈,成为其中一员。

刚刚结束的 Hadoop Summit 2016 充分展现了这一点。大会的主办方、赞助商、演讲嘉宾、与会听众,囊括了几乎世界上所有的大数据技术厂商,共襄盛举。在大会上,技术厂商和科研机构的分享也让我们感受到 Hadoop 今后的发展方向。

  1. 数据正在改变商业世界。大数据不再是象牙塔和实验室里的玩具,它已经能切实地创造商业价值,深切地改变商业世界。零售商通过大数据技术做精准市场预测,洞察物流效率,每年可以节省 7000 万美元系统开支,营收增长 8%,利润增长 3%。保险公司通过实时分析司机的驾驶模式,动态计算行驶风险并奖励安全驾驶,带来每年 26 亿美金的保险金增长,减少 4% 的理赔损失。类似的变革将在所有的行业中慢慢发生。
  2. HDFS 和 YARN 作为大数据的操作系统已经非常成熟,将来是中间件和上层应用百花齐放的年代。数据流处理方面竞争激烈,Storm、Spark Streaming、Flink、Nifi 等互有侧重但又各有缺陷。数据分析方面 Hive 2.0 想要王者回归,Kylin 从预计算角度另辟蹊径。安全领域比如 Ranger 和 Atlas,也是大公司的重点。机器学习持续火热,技术逐渐普及化。
  3. 系统层面。YARN.NEXT 试图重新定义 Hadoop 应用,根据组装描述文件自动适配资源,部署应用到整个集群,而不是仅管理组成应用的每个部件。Tiered HDFS 根据数据的特性(比如活跃度)透明地在多种性价比不同的存储介质之间移动数据,从而提高数据存取的效率。极小化软件对运行环境和类库的依赖,为在物联网小微设备上的运行做好准备。
  4. Technoethics(技术伦理学)也是不可回避的话题。大数据和人工智能技术一旦被滥用,将对整个人类社会造成及其可怕的后果,这不是科幻小说里的妄想,而很可能正在我们身边发生。应当立即行动,为技术伦理制定规范。

Hadoop 已经走过了第一个黄金十年,看起来正走向第二个黄金的十年。

目录

Hadoop 十年解读与发展预测

Hadoop YARN 在 Hulu 的成功实践

专访王峰:Hadoop 生态下一代计算引擎 streaming 和 batch 的统一

大数据开放平台搭建,难点何在

评论

发布
暂无评论