速来报名!AICon北京站鸿蒙专场~ 了解详情
写点什么

三家 Hadoop 厂商衰落启示:云大数据是颠覆者吗?

  • 2019-06-20
  • 本文字数:3915 字

    阅读完需:约 13 分钟

三家Hadoop厂商衰落启示:云大数据是颠覆者吗?

今年 5 月底,MapR被曝融资困难,可能在不久之后关闭,这个曾经估值高达 10 亿美元的 Hadoop 赛道的有力挑战者或将就此衰落。随后,同样围绕 Hadoop 进行商业化落地的Cloudera股价在 6 月 6 日(美东时间)开盘后暴跌 43%,这些老牌 Hadoop 供应商的落败一定程度上被认为与云厂商的崛起有关。然而,Hadoop 生态厂商发展到这一步到底与哪些因素有关?这是否意味着整体生态开始走下坡路?


三大 Hadoop 厂商衰落

在围绕Hadoop进行商业化的厂商中,Cloudera、Hortonworks 和 MapR 曾是最为外界所关注的对象,直到 Cloudera 和 Hortonworks宣布进行全股合并时,业界大部分声音是看好的。Syncsort首席技术官指出,虽然 Hortonworks 的产品专注于物联网和流数据场景,Cloudera 专注于数据科学、机器学习和人工智能。但在她看来,这可以使合并取得成功,因为合并后的公司将比二者中的任何一个都发展得更快,走得更远。


合并后不久,Cloudera 宣布的收入比分析师预测少了 6900 万到 8900 万美元。与此同时,公司首席执行官 Tom Reilly、联合创始人兼 CSO Mike Olson 双双宣布辞职。该公司股价随即暴跌 40%。


至于 MapR,其商业化的主要途径是提供优于开源 Hadoop 的特性,比如其创始人 M.C.Srivas 在公司创建伊始就将 Hadoop 文件系统 HDFS 进行了重构,兼容 Hadoop 协议的同时保持闭源,一度给外界造成技术实力优于整个 Hadoop 社区的感觉,可惜的是用户对此并不买账,导致其融资困难,甚至开始裁员并计划关闭硅谷总部。


对此,一位不愿意透露姓名的云计算领域专家在接受 InfoQ 采访时表示,开源颠覆了传统软件,云计算又颠覆了开源厂商。大数据的市场空间本身存在,但是随着云计算厂商的接入,确实削弱了传统大数据厂商的盈利能力。云厂商对传统大数据厂商冲击太大,因为总体成本更低,可获得性更容易,而这三家大数据厂商并没有提供相比云计算厂商大数据能力的差异化点。


当然,这三家围绕 Hadoop 进行商业化的厂商的衰落并不代表整个 Hadoop 生态的陨落,只能说明这样的商业化路径存在问题(不要将厂商和生态混为一谈)。 专家指出,过去,开源对传统软件是一种颠覆式的影响,在开源尤为活跃的大数据技术领域采用传统软件的商业化模式是一种逆势而为,云计算的兴起正在对开源产生巨大影响,正如Clint Sharp 所指出的,“Hadoop 的主要应用场景一直是廉价的存储。然而,有了云之后,存储变得更廉价,更何况 S3+EMR 和其他服务的用户体验还提高了千倍不止。”

云厂商的颠覆姿态

在企业逐步云化的过程中,云厂商的颠覆者姿态让其受到了诸多指责,比如开源杀手等,但这并没有阻碍企业云化的进程,大数据服务公司也在往云平台的方向演进,比如 Cloudera 与 Hortonworks 合并被认为是在一定程度上提升云服务的竞争力。但是,本地大数据厂商难以独立提供云大数据服务所依赖的全部基础设施资源,一般会集成到各大公有云平台,比如 MongoDB 提供的 Atlas 就与众多公有云厂商合作。因此,在各大公有云平台上,可以看到越来越多本地大数据服务商提供的服务。


那么,云厂商的出现为什么会对这一领域造成如此影响呢?专家认为,首先要从大数据的本源谈起,大数据的本源是需要处理的数据集远远大于单台物理机能够存储和处理的数据量。在这种情况下,出现了两个技术:一是跨服务器存储的分布式文件系统HDFS(当然,最早来自于谷歌论文);二是多机器处理的计算框架。这种体系在大数据发展的早、中期起到了非常大的作用,就是把大批量中低等级的硬件系统集成起来以处理海量数据。


在实践过程中,这种架构逐渐出现内在的不均衡。简单来说,物理机的计算和存储比例是固定的,但是从应用视角来看,计算和存储的比例关系往往是动态的,有些公司计算过剩,有些公司存储过剩,这导致硬件选型成为一个很大的挑战。同时,对于长久存在的大数据系统来说,新老硬件组成的非均质系统也存在负载均衡等管理上的挑战。


随着云架构的发展,无论是公有云,还是私有云,特别是公有云,可以实现存储与计算分离。IaaS 层将计算、存储、网络作为资源动态提供给用户消费,这成为一个最佳实践,完美消除了计算和存储的动态均衡问题。从最优化的角度来看,相对于传统的计算、存储一体化的大数据系统,云平台大数据服务无疑存在一些开销,但是这种形态让大数据集群建设初期要考虑的计算和存储匹配,网络设计等问题都“推迟决策”了,换言之就是不用那么早考虑,在具体业务使用时随用随取,这为业务带来了极大的灵活性。


从这个角度看,基于云架构的大数据系统,本质上提供了灵活性,而对数据业务本身而言,灵活性、动态性恰好是根本,那么基于云架构的大数据服务刚好契合了这些特征。大数据云服务的本质优势是享受更低成本、更快的技术更新。在过往与企业大数据团队打交道的过程中,专家发现其自建的大数据平台还在使用两年以前的开源大数据组件,因为人员的不稳定造成其不敢轻易进行技术升级,或者说没有能力升级,维护的包袱就会越来越重。


综上,业内专家向 InfoQ 表示,相比于本地大数据服务,云大数据服务灵活的本质是计算和存储分离,本质优势是极大得降低了成本,包括环境成本,节省搭建机房,风火水电,网络,操作系统等的时间;研发成本,节省服务搭建,研究周边依赖,可靠性部署,安全对接等的时间;人力成本,大数据运维需要非常专业的人才能胜任,企业应该聚焦在业务上而不是大数据平台的运维上;运行成本,大数据云服务厂家和基础设施的配合可以做到最优,尽可能减少资源消耗。

选用原则

在过往与企业用户打交道的过程中,完全依靠本地大数据服务,选择部分云供应商的大数据服务,在公有云的基础设施之上自建大数据服务的用户皆而有之。


就此现状,InfoQ 采访了华为云布道师赵军。他表示,大数据框架中的服务本身对基础设施并没有强绑定要求,而当前云端的性能、可靠性、可运维性已经足够高。就服务本身而言,所有大数据服务都适合在云端运行,企业应该根据业务类型进行区分。如果业务可以上云,则所有都可使用云端大数据服务。


在具体选用上,可以结合成本构成分析大数据平台的使用,包括如下几方面:


  • 风、火、水、电数据中心的成本

  • IaaS 成本

  • 大数据软件栈的成本

  • 运维大数据软件栈的成本

  • 使用大数据软件栈的团队的成本


其中,大数据软件栈和运维其的成本有些关系,有些用户完全通过开源软件实现,但是实际上付出了极大的人力成本。无论如何,不管是自建还是基于公有云,以上成本都是显性存在的,公有云可以省去一些大数据软件栈搭建及运维的成本,前两项成本则是购买公有云服务和自建的区别。此外,自建服务的弹性较小,云平台可以随时提供弹性能力。


至于云平台大数据服务的价格高昂与否,其实完全取决于公有云服务的定价。对于那些在 IaaS 层面采用自己设计、生产的 CPU、网络、存储等基础设施的公有云厂商来说,往往对于超大客户有比较大的让利能力。


对于不同类型的企业,选择大数据平台服务时关注的点会差异很大。举例来说,更关注成本且需要削峰的,建议优先选择 Serverless 服务;更关注资源隔离和独享的,建议选择包周期的资源类型服务;对于已有大数据平台经验的企业,则优选通用开源大数据开发平台类服务;对接口要求简单通用的,则优选 Serverless 服务。


大数据社区的多样性,导致了选择的多样性。具体原因可能很难一概而论,有的公司想总有一天要建立自己的私有云设施,所以仅希望公有云提供 IaaS;有的公司是因为已经在私有云方面具备很长的历史,团队、经验等都是现成的,因此在公有云的 IaaS 上自行搭建大数据服务。但是,对于绝大部分企业来讲,使用公有云的大数据服务会更省心,成本更低。


赵军表示,华为云目前提供通用的开源大数据开发平台,例如MRS(大数据平台)、DWS(数据仓库)、CSS(搜索引擎)等,帮助原本使用开源大数据平台的用户无缝迁移到华为云大数据平台;Serverless 的大数据服务,例如DIS(数据接入)、CDM(数据迁移)、CS(实时流处理)、CloudTable(表格存储)、DLI(数据湖探索)等,帮助客户按需使用大数据平台资源,支持数据采集、接入、存储、分析等,最低成本帮助客户解决削峰场景,并且与 AI 很好结合,可以让用户更容易使用 AI 技术;数据管理平台,例如DAYU(数据治理),帮助客户解决数据治理相关的问题;全栈大数据服务,包括多种专业化单一引擎的大数据服务;总之,主要意图是希望降低企业获取大数据服务的门槛,做到按需使用。在接口和应用开发体验方面完全与社区一致,同时提供按需、弹性、运维等支持,包括论坛等。


总体来看,企业如何选择取决于公有云运营者能否提供充分的迁移支持,让大数据服务的消费者省心、放心。省心指的是大数据服务与 Hadoop 社区的兼容性,这个兼容性能够让迁移的成本最小甚至无感知。放心指的是大数据服务有强大的团队支持,而不是简单的把 Hadoop 社区的东西拖来安装一下售卖。国内的公有云厂商在这方面的差别还是比较大的,有的走自研道路,可能存在社区兼容性跟进慢等情况;有的基本没有私有云大数据服务,导致自己的大数据服务没有充分锤炼。


短期来看,赵军表示,企业大数据服务的公有云、混合云和多云模式将共同存在。长期来看,公有云和私有云架构将逐渐趋同,甚至提供一致的体验,随着可信规则的建立,公有云可能会慢慢取代私有云,并且是多公有云模式,避免单一厂商锁定。未来,华为云大数据服务的发展方向是:数据安全可信,在华为云已经获得国际上主流的 ISO 27001 & 27017 & 27018 & CSA STAR 四个安全复审和认证的基础上,会在技术上继续发力,让用户进一步认可在公有云上的数据安全;支持 ARM,依托自产硬件,提供极致的成本竞争力;大数据技术更易用,降低使用门槛;与 AI 进行深度结合,让数据发挥更大的价值,让 AI 触手可得;大数据计算自动优化,实现大数据计算的“自动驾驶”。


2019-06-20 08:407062
用户头像
赵钰莹 极客邦科技 总编辑

发布了 883 篇内容, 共 647.1 次阅读, 收获喜欢 2679 次。

关注

评论 1 条评论

发布
用户头像
观点总结:云平台的出现确实对本地大数据服务造成了一定影响,但本地大数据厂商也在积极寻求转型和突破,同样保有自己的核心竞争力(具体可参见:https://www.infoq.cn/article/Lw_DNR4NudHEXLVcLtfo)。此外,这三家Hadoop厂商的衰落并不代表整个生态存在问题,更多是这三家厂商商业模式的问题。
2019-06-20 08:45
回复
没有更多了
发现更多内容

【刷题第五天】1. 两数之和

白日梦

5月月更

架起医院就诊“快车道”,YRCloudFile 打造智慧 PACS 存储系统

焱融科技

云计算 分布式 高性能 文件存储 智慧医疗

备受关注的Bit.Store,最新动态一览

小哈区块

druid 源码阅读 2——minEvictableIdleTimeMillis参数的实现逻辑

张大彪

如何开发 LAXCUS 分布式应用软件(四):编写边缘端软件

LAXCUS分布式操作系统

并行计算 端边云协同架构 分布式操作系统 分布式应用软件

深入剖析 split locks,i++ 可能导致的灾难

火山引擎开发者社区

快速上手 Pythond 采集器的最佳实践

观测云

运维 可观测性 可观测

Hadoop Echarts

Emperor_LawD

hadoop 5月月更

linux之iftop命令

入门小站

Linux

钉钉 Flutter 跨四端方案设计与技术实践 | Dutter

阿里巴巴终端技术

flutter 移动端 跨端框架 桌面端

4月月更开奖啦!中奖者速来领取!

InfoQ写作社区官方

热门活动

云图说|华为云帮助中心最佳实践:源自项目实战的上云指导

华为云开发者联盟

最佳实践 华为云 云图说 帮助中心 业务上云

玩了一场剧本杀,同车队友“不是人”

脑极体

“软件定义汽车”的数字化之变,华为云低代码平台带来了什么?

脑极体

实现同比、环比计算的N种姿势

葡萄城技术团队

数据分析 BI数据分析 同比 环比

动辄“耗资过亿”的表格工具,究竟难在哪儿?

葡萄城技术团队

大数据的特点

奔向架构师

大数据 数据仓库 5月月更

百万用户规模电商秒杀系统架构设计

「架构实战营」

备受关注的Bit.Store,最新动态一览

西柚子

时序数据库在监控运维平台中的应用

CnosDB

IoT 时序数据库 开源社区 CnosDB infra

2021年国内促进软件产业发展十大事件出炉,HarmonyOS 2入选

科技汇

数据产品经理的价值管理

第519区

团队管理 项目管理 产品经理 数据产品经理 项目经理

知名金融数字化服务提供商南天信息加入龙蜥社区

OpenAnolis小助手

开源 金融数字化 龙蜥社区 CLA 南天信息

在线HTTP请求头响应头转JSON工具

入门小站

工具

在线TSV转纯文本工具

入门小站

工具

Iframe的好处和坏处

恒山其若陋兮

5月月更

我国类脑计算处于什么水平?人工智能下神经科学启发的类脑计算。

GPU算力

人工智能 液冷服务器 类脑计算 神经科学

“四大高手”为你的 Vue 应用程序保驾护航

葡萄城技术团队

维护版式文档技术生态 国际PDF协会向福昕软件发来感谢信

联营汇聚

Cilium 多集群 ClusterMesh 介绍

Se7en

关于数据一致性的理论

穿过生命散发芬芳

数据一致性 5月月更

三家Hadoop厂商衰落启示:云大数据是颠覆者吗?_文化 & 方法_赵钰莹_InfoQ精选文章