相信很多人对于Hadoop领域近期发生的事件都有所耳闻，先是曾估值10亿美元的MapR向加州就业发展局提交文件，称如果找不到新的投资人，公司将裁员 122 人，并关闭位于硅谷的总部公司，再是Cloudera在6月6日美股开盘之后，股价暴跌43%，公司估值从41亿美元缩水为14亿美元。

从2006年1月诞生以来，Hadoop就以黑马之姿一路开挂成为了火爆整个技术圈的“明星”技术，为什么现在Hadoop领头羊商业公司突然都不同程度的遭遇到了挫折？这是否意味着Hadoop发行版已经几近无路可走？Hadoop商业公司的颓势是否能够反映Hadoop技术、生态的发展情况？Hadoop的竞争对手到底是谁？…为了回答上述问题，我们和星环科技研发总监刘汪根进行了长达一小时的对话。

Hadoop 是 ASF 旗下的分布式系统基础架构，我们现在看到的Hadoop生态有很多组件，但在刘汪根看来，大部分组件产品化程度不够，真正有技术生命力的组件只有两个HDFS和Zookeeper。并且，这种技术生命力是长久的，至少在如今的科技类企业和互联网公司中，HDFS和Zookeeper等已经成为了标配。

开源Hadoop产品化程度不足是Cloudera、MapR商业模式存在的主要问题

Hadoop是个开源软件，那么围绕Hadoop的商业公司都是如何盈利的呢？Cloudera主要是依靠发布Hadoop商业版和商用工具、商业组件，同时提供企业生产环境中必需的运维功能；Hortonworks采用100%完全开源的策略，盈利方式是技术服务支持；MapR的盈利主要是通过用户购买软件许可。

虽然三家公司实现盈利的方式有所出入，但是本质上都是靠提供Hadoop相关的服务来盈利。而服务模式本身就存在很多问题，一是它需要依赖人员的扩张，二是其价值一定要高，能够刺激企业不断基于Hadoop产品开发新的应用。

服务带动产品的销售模式必然要面临成本和投入产出的问题，刘汪根认为：“这三家公司存在的最大问题不是单子不够多，而是单子太多，但每个单子都不挣钱，拖累整个业绩不好。”具体来讲，就是它们产品的标准化不足，其提供了各种组件的底层API给开发者，缺少一个统一的开发标准，导致很难形成标准的开发体验。社区的状态很松散，想要达成某个标准化的事情往往需要很长的时间，以大数据产品的安全为例，这在标准化产品中应该是标配，而在社区中可能花费一个月的时间都搞不起来，这就导致了这个产品是不可持续的，对于用户来说，持续产品的价值太少，导致用户不愿意继续追加投资。

产品化程度低又会连锁反应导致销售成本的增高，因为缺少成功的项目和持续的收入来源，所以企业只能加大销售力度，招聘非常多的销售和售前工程师，在有些公司中这些人员甚至会超过总员工数的一半。

产品化程度低不只是Hadoop商业公司面临的问题，也是所有基于开源软件的商业公司面临的问题。不过也有一些开源软件的商业公司在产品化方面做得不错，例如Spark商业公司Databricks的销售人员占比没那么高。这是因为Databricks商业化的思路不同，第一是它做了云化，第二是它很简单，并且做了两个件事情让Spark变得更加简单，一是SparkSQL，这使得所有会写SQL的人都可以使用，二是通过DataFrame接口和Python让数据分析人员可以更好的编程。

“成功的商业模式一定是可复制的！”

Hadoop发行版是否还有前景？

众所周知，Cloudera、Hortonworks和MapR这三家公司都是Hadoop发行版公司，但是大家可能不知道星环科技最早在国内也是做Hadoop发行版，当时的技术架构组成为HDFS+HBase+YARN+Spark，主要的客户群体是运营商，但是在做的过程中就发现项目同质化太严重了，客户项目开发的成本比较高，因此竞争非常激烈。

2014年，星环不得不开始思考一个现实的问题：“如何才能活下去？”创始人孙元浩先生最终下定决心，星环科技的产品必须要解决企业的痛点问题才能更好的成长。当时数据仓库是个痛点问题，但原来的数据库都是单机的，所以星环科技就开始琢磨利用分布式、内存计算等技术打造一个分布式数据库来解决数据仓库的问题。这个数据库就是后来我们熟知的国际上首个通过了TPC-DS基准测试的Inceptor数据库。

后来，刘汪根在演讲中回忆这段经历时，也感叹到：“如果星环科技只是将技术打包，推出Hadoop发行版，就失去了创新性和独特性。”

Cloudera、Hortonworks和MapR面临窘境，星环科技从Hadoop发行版公司转型成为了大数据与人工智能基础软件的公司，这是否意味着Hadoop发行版已经失去了价值，没有发展前景了？

对此，刘汪根表示：“这个问题现在还很难讲，但是我目前看到的情况，数据在公有云中的渗透率远没有大家想象的那么高，所有人都觉得私有化环境或私有云里面的数据更安全，所以都愿意把数据掌握在自己的服务器上。对象存储之所以在公有云中获得了比较好的发展有两个原因，一是因为其中大部分数据都是冷数据或者非结构化数据，真正重要的、结构化的数据还是存储在私有云中。这种情况在中国比例极高，在美国也不会低。第二个原因是成本，HDFS和对象存储各有特点，对象存储天生是1.4倍副本，而HDFS是3倍副本，光是这一项就有至少2倍的成本差异，所以公有云上对象存储相对于HDFS有很好的竞争力。但是私有云不一样，私有云的场景下更加业务价值导向，追求速度和性能，想向私有云渗透的云产品往往都会需要补充技术实力，所以Hadoop技术对于私有云来说还是非常有必要的，也是非常有用的。”

Hadoop商业公司走了“下坡路”，那社区呢？

毫无疑问，Hadoop三大商业公司与之前相比，已经走了“下坡路”，那么Hadoop技术、Hadoop社区的发展如何呢？刘汪根坦言：“原来Hadoop社区的大佬很多都转向其他项目了，整个社区的创新速度减缓了，对于大数据用户来说，可能Hadoop社区的创新速度已经无法满足需求了。”

上图是星环科技大数据技术架构的演变历程，其完成了从Hadoop平台初期的“纯蓝”软件栈到现在基本“全绿”软件栈的转变，即完成了自研产品和软件对开源软件的替代。为什么要做这种转变呢？首先，是因为HDFS和YARN等核心组件在实际应用中存在痛点，例如HDFS天生在海量小文件存储方面就存在缺陷，YARN只能用来调用长生命周期的任务（如批处理任务）。二是因为Hadoop社区的创新能力有点后劲不足，所以星环科技基于自己的思路进行了重新设计。以HDFS为例，星环科技正在实现自己的存储系统TDFS，在原有的分布式管理系统基础上做了一套通用的HDFS。

在刘汪根看来这一系列改造、替换的操作都是因为需求，“HDFS在设计之初主要解决了两个问题，一是相对廉价的分布式解决了存储可扩展性的问题，二是分析性能比较均衡，支持用户在此基础上做很多创新来解决性能问题。这两件事情保证了HDFS技术能够维持其生命力，”

从图中我们可以看到，在整个星环科技技术架构的演化过程中，其对Hadoop核心组件HDFS、YARN等都做了一定程度的技术改造，在我们询问是否有将这些改变贡献给Hadoop社区时，刘汪根无奈表示：“早期我们也尝试过贡献给社区，但由于当时星环科技的精力有限，并没有完成。后续会根据公司自身的情况来决定。”

Hadoop不代表全部的大数据技术，那下一代大数据技术该如何发展？

其实，媒体很早就在接受这样一个观念，那就是“Hadoop不代表大数据”。时至今日，Hadoop在大数据领域到底扮演着什么样的角色呢？刘汪根认为：“Hadoop不代表大数据，它是大数据技术实现的一个分支，且这个分支中有部分技术变成了通用的技术，成为大数据技术的标配。但是，大数据技术还有很多其它分支，它们最终会演化成为新的大数据实现方式。”

早在2013年，Gartner研究总监Svetlana Sicular就曾发文称Hadoop过时了，在《2017年数据管理技术成熟度曲线》报告中，Gartner更是用极其显眼的红色标识出Hadoop在到达“生产成熟期”之前即被淘汰。当然，其它唱衰Hadoop的声音也不在少数，但是刘汪根认为Hadoop技术是有长久生命力的，很多技术已经成为了大数据领域教科书般的存在，例如2003年Google连续发表的三篇论文奠定了大数据的框架基础，并基于此理论形成了Hadoop原始的“3+1”式软件栈：即分布式文件系统HDFS、分布式计算MapReduce、Hbase NoSQL数据库，以及YARN资源调度。

当Hadoop不能再成为大数据的代名词，下一代大数据技术将如何发展呢？通常来讲，大数据技术栈总共包含有四层，分别是资源调度层、统一的分布式块存储管理层、统一的计算引擎层和统一的接口层，所以下一代的大数据技术一定是基于这四层进行改造，以适应新的应用场景和需求。

资源调度层的改造：为了解决上层应用对资源调度管理的问题，出现了很多新的技术，例如很多企业开始研究利用容器编排技术来代替YARN进行资源管理；
统一的分布式块存储管理层：过去的观点认为HDFS具有较好的通用性并在此之上搭载了各种引擎，实践证明HDFS无法实现高效的数据库，新一代的大数据体系需要一个统一的分布式块存储管理层，以支持不同的数据库类型。
统一的计算引擎层：过去常见的观点是数据量小的时候可以采用混合架构，数据量大的时候采用Hadoop，但是这种选择存在效率低下的问题，所以我们需要一个统一的计算引擎层来应对数据仓库、OLTP数据库、搜索引擎、实时计算、图数据库等多种需求。
统一的接口层：多年前，通过统一的SQL接口层来降低大数据技术的使用门槛，就已经达成了共识。如今，SQL的支持度在不断提升。

谈谈Hadoop的两大“竞争对手”

有关最近Hadoop事件的解读，国内外媒体都已经做了不少的报道（我们也基于此做了一个合集，感兴趣的小伙伴可以点击查看）。如果总结一下大家的观点，不难发现大家普遍认为Hadoop的“竞争对手”主要有两个，一是MongoDB、Elasticsearch等其它开源大数据相关产品，二是公有云。下面，我们就分别来谈谈这两个“Hadoop”的竞争对手。

MongoDB、Elasticsearch等蚕食了HDFS的市场

之所以得出了MongoDB 、 Elasticsearch等技术挑战了Hadoop技术及相关产品的结论，是因为外媒观察到这样一个情况：在Hadoop三大商业公司遭遇挫折的时候，MongoDB 数据库产品受欢迎程度一直在增长，现在的受欢迎指数大约是 Oracle 和 MySQL 的三分之一，而五年前只有十分之一。这种受欢迎程度反过来良性地推动 MongoDB 公司的收入增长，最近收入已经跃升了 78%。同样的，Elasticsearch 分布式搜索和分析引擎背后的公司 Elastic 在去年员工数量翻了一番，最近一个季度的收入增长了 70%。许多公司已经转用 Elastic 的产品进行传统的文本搜索和其他更多的搜索，比如英国伦敦的 Stansted 机场就使用 Elastic 工具来追踪和可视化机场内的人员和行李流量，并提供实时分析。

Hadoop与MongoDB、Elasticsearch是否存在外媒描述的此消彼长的情况呢？刘汪根表示这种情况是存在的，但是比例不会很高。大数据应该包括分析数据库、交易数据库以及NoSQL四大类数据，刚刚提到的MongoDB属于文档数据库，Elasticsearch属于检索数据库，而HBase属于列存数据库，它们是按照业务场景划分的，本来是平行的，但是每个东西之间都有一定的边界，HBase和Elasticsearch之间场景非常明确，但是HBase和MongoDB是有一定冲突的，HBase并发度高，但是很多人也用它来处理JSON的数据，而MongoDB也在处理非结构化的JSON数据。HBase的优势在于存储，而MongoDB的优势在于可以修改JSON中的字段。但是重合的点真的非常少，仅限于处理JSON数据。

但是HDFS就比较尴尬了，HDFS强调通用性，没有比较突出的优势，所有方向都是均衡的，所以市场份额很容易被其它大数据产品蚕食。例如，企业历史数据既可以存在MongoDB中，也可以存在HDFS中。虽然，HDFS的存储成本会比较低，但如果企业一直是使用MongoDB，且不太在乎成本差异，那么就会一直使用MongoDB。不仅限于MongoDB和Elasticsearch，如果企业有比较明确的数据处理需求，其它数据库也会切掉HDFS的市场份额。当然，如果出现了一个统一的分布式块存储管理层能够解决各种类型的存储需求管理，那么它将覆盖HDFS原有的市场，以及MongoDB和Elasticsearch的市场。

MongoDB和Elasticsearch是否挑战了Hadoop的地位？这个结论现在还不好确定，但是从营收状况来看，MongoDB和Elastic两家公司的营收之和仅相当于合并之前的Cloudera单家公司营收，这说明MongoDB和Elasticsearch还只是大数据生态里的一小部分。

公有云与Hadoop不是天生对手

为什么很多人都把公有云看作是Hadoop的竞争对手？Hadoop的主要应用场景是廉价的存储，而有了云之后，存储变得更加廉价，AWS、微软 Azure 和谷歌云打造的一站式云原生服务提供了完全集成的产品系列，获取成本更低，扩容更便宜。

但其实Hadoop与公有云并不是天生对手，只是大家使用Hadoop的方式基本只有三种，要么找这三大商业公司，要么自己搭建，要么找公有云厂商。如果这已经是饱和市场，那么大家都是在切同一块蛋糕，公有云难免会切到Hadoop商业公司原有的部分。不过，从目前的情况来看，类似于AWS这样的公司，其Hadoop的收入占比是非常小的。

在刘汪根看来，相比于竞争关系，公有云厂商和Hadoop商业公司更多的是合作关系。以AWS为例，其Hadoop研发团队的规模非常小，当出现搞不定的问题时，就必须要去找Hadoop商业公司来解决。AWS相当于是个大渠道，拥有更强的溢价能力，但渠道的溢价能力再强，最终还是需要背后公司的支持。而这对于Hadoop商业公司来说，不是坏事，反而是好事，因为公有云上的模式是可复制的，可以帮助Hadoop商业公司触探到更多用户，Databricks就是一个很好的例子。

写在最后

关于Hadoop及其商业公司最近的发展颓势，我们已经进行了多方面、深层次的探索。总体来看，公有云、其它大数据产品与Hadoop竞争的外因固然存在，但是Hadoop自身存在的问题、社区创新能力不足以及其商业公司的盈利模式才是更主要的原因。

Hadoop的技术偏底层，使用场景需要比较专业的技术基础，因此虽然是很好的技术，但只能定位给有比较强技术能力的企业来使用，缺乏我们常说的应用创新或者模式创新。如果将其更好的产品化，譬如通过SQL on Hadoop的技术打造完整的数据库的体验，那么其开发者群体和视野将大大拓宽，技术的盘子就可以做得更大一点，现阶段的对手都会变盟友。

创作场景

被“围攻”的 Hadoop 没有对手