虽然大数据依然如日中天，但该领域曾经的领头羊Cloudera、Hortonworks和MapR三家公司最近步履蹒跚，多少掩盖了其几分风光。作为曾经的数据宠儿，过去筹集到的巨额投资源源不断。例如，英特尔公司就曾向Cloudera注入7.66亿美元，这还仅仅只是一轮投资的数额！如今，这些大数据领域的重量级公司纷纷被迫瘦身，Cloudera和Hortonworks合并，而MapR开始裁员。

与此同时，大数据领域的其他开源供应商（如Elastic和MongoDB公司）却势头正猛。到底发生了什么事？当然，这背后有种种原因，但其中一个事实是，老牌Hadoop供应商把大赌注押在了错误的目标用户上，瞄准的是所谓数据中心的专职架构师。然而，市场已经转向了在云计算环境中寻求自由的个体开发人员。

此消彼长

在那些靠Hadoop发家致富的供应商中，MapR是最新的牺牲品。MapR公司一度估值超过10亿美元，但最近披露的消息是，除非能找到新的投资者，否则公司必须裁员122人，这个数量约占员工总数的25%，而且裁员名单包括其首席执行官John Schroeder、其他高管以及多名工程师，并且同时准备关闭其总部办公场所。如果真能找到投资者的话，他们必须在6月14日前签署协议，否则MapR的前景将会一片黯淡。

不过，最近大数据领域一直都不太平。根据LinkedIn的数据，在过去两年中，MapR公司已经缩水了29%。无独有偶，大概是因为Cloudera和Hortonworks这两家公司无法单独生存，于是它们进行了合并，但在合并之后不久，Cloudera就宣布了其惨不忍睹的收益，预计收入比分析师预测少了6900万到8900万美元。与此同时，公司首席执行官Tom Reilly、联合创始人兼CSO Mike Olson双双宣布辞职。该公司股价随即暴跌40%。

以上种种结果似乎很容易就被归咎于一个原因：之前的大数据领域被过度炒作，泡沫破灭后回归现实，Hadoop领头羊已经溃不成军。但这却无法解释为什么大数据领域的其他供应商却依然在蓬勃发展。例如，MongoDB数据库产品受欢迎程度一直在增长，MongoDB现在的受欢迎指数大约是Oracle和MySQL的三分之一，而五年前只有十分之一（https://db-engines.com/en/ranking）。这种受欢迎程度反过来良性地推动MongoDB公司的收入增长，最近收入已经跃升了78%。

同样，Elasticsearch分布式搜索和分析引擎背后的公司Elastic在去年员工数量翻了一番，最近一个季度的收入增长了70%。许多公司已经转用Elastic的产品进行传统的文本搜索和其他更多的搜索，比如英国伦敦的Stansted机场就使用Elastic工具来追踪和可视化机场内的人员和行李流量，并提供实时分析。

大数据时代的剧本似乎让人看不懂了。像MongoDB和Elasticsearch这样的技术以及它们背后的公司从来没有被认为能够挑战Hadoop和相关产品。然而现在看来，他们确实做到了。为什么会这样?

预报：未来多云

其中一个答案是因为“云”，但它也只是一个多方面综合效应的一个侧面而已。正如Anaconda高级副总裁Mathew Lodge在一篇文章中所提及的，尽管Cloudera、Hortonworks和MapR这三家公司都在拼命从现有产品中寻求演进，但AWS、微软Azure和谷歌Cloud三巨头打造的一站式云原生服务提供了“完全集成的产品系列，获取成本更低，扩容更便宜”。企业用户的目光纷纷投向了这些服务和产品。虽然Hadoop供应商以尽可能快的速度打造自己的云服务，但其速度根本赶不上那些云计算领域的重量级竞争对手。

虽然Hadoop在当时是颇具革命性的技术，但与云计算的替代方案相比，它的成本高得离谱。正如Clint Sharp所指出的，“Hadoop的主要应用场景一直是廉价的存储。然而，有了云之后，存储变得更廉价，更何况S3+EMR和其他服务的用户体验还提高了千倍不止。” 作为传统专有数据仓库的替代品，Hadoop曾经是很不错的选择，但它现在已经远比不上更现代的技术（甚至是基于云的Snowflake数据仓库，等等）。

与此同时，云计算代表着处理数据的新方法。虽然它们本身不是完全同质的替代品，但与MongoDB或Elasticsearch一样，它们解决了与Hadoop相同的问题，而且还简单易用，没有那些令人抓狂的麻烦。正如MongoDB的Joe Drumgoole所说，“编写有效的分布式Map-reduce算法真的非常非常困难。” 更糟糕的是，Hadoop供应商争先恐后地为他们的Hadoop产品添加各种开源插件（例如，Impala、Pig、Hive，以及Flume），还发明了更累赘的“解决方案技术栈”。直到最后，终于有一位观察者这样评价，“没有人知道这些Hadoop公司到底在做什么”。

对于一些企业用户来说，或许在这上面费力地付出时间和精力还算值得。然而，对于肩负“把事情做完”任务的个体开发人员来说，他们越来越多倾向于选择更简单直接的替代方案。

使用方便才是王道

Hadoop及其衍生产品的开箱即用体验确实不忍直视。这与MongoDB的用户体验形成鲜明对比。前MongoDB高管Kelly Stirman认为用户体验是让MongoDB在同类产品中脱颖而出的一个关键。这是一种什么体验？一位叫Tom Barber的人这样描述：

在使用MongoDB时，你可以容易地在一台服务器上安装MongoDB，而不需要在一个糟糕的VM上浪费时间。在生产环境中，你可以直接在一台服务器上把它运行起来。你不需要写一大堆代码就可以把它和其他一堆东西连接起来。人人都希望使用这样的数据库…MongoDB真正做到了很容易让数据流入，也很容易就让数据流出。

TimeScale DB首席执行官Ajay Kulkarni也表示赞同，他补充道：

个体开发人员的热爱是MongoDB战胜Hadoop的原因。MongoDB聚焦于首次用户体验。而Hadoop的运行过程十分繁琐，简直臭名昭著。虽然Hadoop供应商针对企业用户提供了一套优秀的销售宣传说辞，但如果没有开发人员的热爱和支持，它的增长就会停滞，市场就会萎缩。

在MongoDB和Elastic击败Cloudera和MapR这件事上，虽然把成功因素统统归于开发人员的热爱可能有些夸大其词，但这的确是一个不争的事实。

开发人员Jake Kaldenbaugh认为，MongoDB已经开始“融入”到各种现代应用程序中。随着时间的推移，那些一开始将MongoDB应用于并不那么重要的应用程序的开发人员，会将MongoDB应用到那些涉及重要业务的应用程序中，而且MongoDB还在不断添加新功能（比如多文档事务支持），以支持更复杂的应用场景，但又没有让这些功能变得过于复杂。

那么，之前的这些大数据巨头公司们将何去何从呢？Mathew Lodge已经为他们写下了悼词：

在Cloudera和Hortonworks（还有MapR）作为大数据宇宙中心长达10年之后，这个领域的重心已经转移到其他地方。如今领先的云公司并不像Cloudera和Hortonworks那样运行大型的Hadoop/Spark集群，而是在容器基础设施之上运行分布式数据库和应用程序。他们用Python、R和其他非Java语言进行机器学习。越来越多的企业正转向类似的技术方向，因为它们也希望获得同样的速度和规模效益。那些使用Hadoop和Spark技术的世界是该紧跟时代做出改变了。

开源数据基础设施的创新日新月异，这既是福，也是祸。创新正在以惊人的速度发生，注定会有一些供应商将在这个飞速发展的过程中破产。

查看英文原文：
https://www.infoworld.com/article/3400864/hadoop-runs-out-of-gas.html?upd=1560395045502

相关文章：
架构师特刊：Hadoop十年回顾
 Hadoop 十年解读与发展预测
 Hadoop 真的要死了吗？
CTO视角解读：国外企业部署Hadoop到底犹豫什么？
大数据独角兽 Cloudera 股价腰斩，Hadoop 将何去何从

创作场景

Hadoop 气数已尽：逃离复杂性，拥抱云计算