Hadoop真的要死了吗？-InfoQ

10 月 3 日，Hortonworks 宣布将与其主要竞争对手 Cloudera 合作创建一家年收入约为 7.3 亿美元、拥有 2,500 名客户、市场估值达 52 亿美元的公司，这令很多人感到意外。

Splice Machine 首席执行官 Monte Zweben 表示：“我认为对于我们来说，这是个好消息。我们已经看到了运营由这两家公司和其他公司部署的所有数据湖的巨大机会，而这样的机会在两年前可能连想都不敢想”。

Confluent 的首席执行官兼 Apache Kafka 联合创始人 Jay Kreps 告诉 ZDNet：“这是一个聪明的举动。过去，这两家公司在同一产品上展开竞争，但具有讽刺意味的是，这却让竞争变得更加激烈”。

Unravel Data 首席执行官 Kunal Agarwal 说：“我认为这是件好事。我认为这两家公司在将他们的技术整合在一起，而不是试图相互攻击。他们现在可以专注于提供合适的机器学习工具、物联网平台和 AI 工具”。

但并非所有的反应都是积极正向的。 自由科技记者 Virginia Backaitis 在他的一片文章中写道：“我比较担心新的 Cloudera（或者可能是单独的 Cloudera 和 Hortonworks）是否会像管理团队和投资人所期望的那样快速增长”。

Bloomberg Opinion 专栏作家 Shira Ovide 同样不看好，他将这两家公司的合并说成是“两家水下公司的航海联盟”。

Teradata 首席运营官 Oliver Ratzesberger 告诉 Datanami：“这是一种 Sears-K-Mart 式的合并，这是他们唯一能够生存下来的方式。Hadoop 本身就变得无关紧要了”。

Anaconda 产品和营销高级副总裁 Mathew Lodge 在 VentureBeat 上发布的一篇文章中指出，大数据的中心已经从 Hadoop 转移到了云端，在对象存储系统（如亚马逊 S3、微软 Azure Blob Storage 和 Google Cloud Storage）中存储数据比在 HDFS 中便宜了五倍。

“领先的云计算公司并没有在 Cloudera 和 Hortonworks 上运行大型的 Hadoop/Spark 集群，相反，他们在容器基础设施上运行分布式云规模数据库和应用程序。现在是时候让 Hadoop 和 Spark 与时俱进了”。

让 Hadoop 更像云

事实上，Apache Hadoop 社区一直都在积极应对来自公有云供应商的威胁，包括像 Databricks 和 Snowflake 这样的初创公司。它们通过采用对象存储和容器技术让云端的大数据分析变得更便宜和更容易，并在上周获得了来自风险资本的 4.5 亿投资，

在今年早些时候发布的 Hadoop 3 中，用户可以选择使用擦除编码（erasure coding），这是 S3 等对象存储系统使用的数据保护技术，可将存储效率提高 50％。Hadoop 3.1 将为 YARN 中的 Docker 带来更强劲的支持。在宣布合并之前，Cloudera 和 Hortonworks 都在努力让他们的 Hadoop 发行版支持 Kubernetes。

但是，对于 Hadoop 社区来说，他们还有很多工作要做。上个月，Cloudera 首席战略官 Mike Olson 告诉 Datanami，社区还需要 12 到 24 个月才能在开源的 Apache Hadoop 项目中提供 Kubernetes 支持。

Olson 说：“YARN 擅长长期运行的批次作业调度，但要作为通用的集群资源管理框架，它还需要精心的设计和改进。未来 Kubernetes 将会入驻，并接管其中的一大部分内容”。

于是问题来了：当 YARN 被 Kubernetes 取代，并且 HDFS 被替换为任何兼容 S3 的对象存储系统时，Hadoop 还会是原来的 Hadoop 吗？ 如果你认为 Hadoop 只是 40 个开源项目的集合——HBase、Spark、Hive、Impala、Kafka、Flink、MapReduce、Presto、Drill、Pig、Kudu，等等——那么也许这个问题就问得没有什么实际意义……

从实际角度来看，客户不可能因为两个最大的 Hadoop 发行商的整合而突然关闭多年来部署的数百万个 Hadoop 节点。对于已经建立了 Hadoop 数据湖的数千家公司而言，它们的重点将保持不变：从数据中获取价值。

尽管 Hadoop 可能已经变成了一项传统技术，但社区仍然有动力去调整它，以便支持新兴的需求，就像 IBM 对其大型机平台所做的那样。问题是它是否能够以足够快的速度让已部署的基础设施不断增长。

简化 Hadoop

自从十多年前第一个 MapReduce 程序上线以来，开发人员一直对 Hadoop 的复杂性颇有微词。即使像 Facebook 这样大的公司在使用 Hadoop 时也感到不便，特别是当他们需要通过底层的 Java 编程技能从 Hadoop 中及时获取信息时。

从那时起的一个发展趋势，就是消除这种复杂性，但 Hadoop 社区没能及时取得进展，因此未能阻止云供应商通过推出更简单的产品抢走市场份额。

Splice Machine 的 Zweben 表示：“我认为这是 Hadoop 的一次转型。软件供应商会使用越来越多的引擎，但从长远来看，不会有普通的企业会用它们……对于全球 2000 大企业来说，在背负 Hadoop 的重压之下很难做到这点”。

Unravel Data 公司的 Agarawal 表示，现在 Cloudera 和 Hortonworks 的工程师将齐心协力，以更好地应对构建系统方面的挑战，这些系统可以以本地、云端和混合的方式运行。“这是一个巨大的项目，仍然需要大量的工程师投入时间，把它打造成 Kubernetes 之上的一个成功的平台。他们还有很多开发工作要做”。

如果说在隧道尽头有一盏灯，那它就是：如果新 Cloudera 可以将 Hadoop 重新打造成一个混合的容器化平台，位于 Kubernetes 之上，并且可以将数据存储在任何与 S3 兼容的对象存储中，那么它就有可能实现部分目标，并占领一部分市场。 IDC 认为这是一个价值 650 亿美元的机会。

Agarwal 说：“我认为 Cloudera 手里握有一张云供应商所没有的王牌，那就是他们的混合策略。 根据我们与这些财富 1000 强公司合作的经验来看，他们不会直接进入云端。他们想要的是这种混合策略。因此，我认为这将成为为这些客户创造价值的一条可行之路”。