AICon上海|与字节、阿里、腾讯等企业共同探索Agent 时代的落地应用 了解详情
写点什么

三家 Hadoop 厂商衰落启示:云大数据是颠覆者吗?

  • 2019-06-20
  • 本文字数:3915 字

    阅读完需:约 13 分钟

三家Hadoop厂商衰落启示:云大数据是颠覆者吗?

今年 5 月底,MapR被曝融资困难,可能在不久之后关闭,这个曾经估值高达 10 亿美元的 Hadoop 赛道的有力挑战者或将就此衰落。随后,同样围绕 Hadoop 进行商业化落地的Cloudera股价在 6 月 6 日(美东时间)开盘后暴跌 43%,这些老牌 Hadoop 供应商的落败一定程度上被认为与云厂商的崛起有关。然而,Hadoop 生态厂商发展到这一步到底与哪些因素有关?这是否意味着整体生态开始走下坡路?


三大 Hadoop 厂商衰落

在围绕Hadoop进行商业化的厂商中,Cloudera、Hortonworks 和 MapR 曾是最为外界所关注的对象,直到 Cloudera 和 Hortonworks宣布进行全股合并时,业界大部分声音是看好的。Syncsort首席技术官指出,虽然 Hortonworks 的产品专注于物联网和流数据场景,Cloudera 专注于数据科学、机器学习和人工智能。但在她看来,这可以使合并取得成功,因为合并后的公司将比二者中的任何一个都发展得更快,走得更远。


合并后不久,Cloudera 宣布的收入比分析师预测少了 6900 万到 8900 万美元。与此同时,公司首席执行官 Tom Reilly、联合创始人兼 CSO Mike Olson 双双宣布辞职。该公司股价随即暴跌 40%。


至于 MapR,其商业化的主要途径是提供优于开源 Hadoop 的特性,比如其创始人 M.C.Srivas 在公司创建伊始就将 Hadoop 文件系统 HDFS 进行了重构,兼容 Hadoop 协议的同时保持闭源,一度给外界造成技术实力优于整个 Hadoop 社区的感觉,可惜的是用户对此并不买账,导致其融资困难,甚至开始裁员并计划关闭硅谷总部。


对此,一位不愿意透露姓名的云计算领域专家在接受 InfoQ 采访时表示,开源颠覆了传统软件,云计算又颠覆了开源厂商。大数据的市场空间本身存在,但是随着云计算厂商的接入,确实削弱了传统大数据厂商的盈利能力。云厂商对传统大数据厂商冲击太大,因为总体成本更低,可获得性更容易,而这三家大数据厂商并没有提供相比云计算厂商大数据能力的差异化点。


当然,这三家围绕 Hadoop 进行商业化的厂商的衰落并不代表整个 Hadoop 生态的陨落,只能说明这样的商业化路径存在问题(不要将厂商和生态混为一谈)。 专家指出,过去,开源对传统软件是一种颠覆式的影响,在开源尤为活跃的大数据技术领域采用传统软件的商业化模式是一种逆势而为,云计算的兴起正在对开源产生巨大影响,正如Clint Sharp 所指出的,“Hadoop 的主要应用场景一直是廉价的存储。然而,有了云之后,存储变得更廉价,更何况 S3+EMR 和其他服务的用户体验还提高了千倍不止。”

云厂商的颠覆姿态

在企业逐步云化的过程中,云厂商的颠覆者姿态让其受到了诸多指责,比如开源杀手等,但这并没有阻碍企业云化的进程,大数据服务公司也在往云平台的方向演进,比如 Cloudera 与 Hortonworks 合并被认为是在一定程度上提升云服务的竞争力。但是,本地大数据厂商难以独立提供云大数据服务所依赖的全部基础设施资源,一般会集成到各大公有云平台,比如 MongoDB 提供的 Atlas 就与众多公有云厂商合作。因此,在各大公有云平台上,可以看到越来越多本地大数据服务商提供的服务。


那么,云厂商的出现为什么会对这一领域造成如此影响呢?专家认为,首先要从大数据的本源谈起,大数据的本源是需要处理的数据集远远大于单台物理机能够存储和处理的数据量。在这种情况下,出现了两个技术:一是跨服务器存储的分布式文件系统HDFS(当然,最早来自于谷歌论文);二是多机器处理的计算框架。这种体系在大数据发展的早、中期起到了非常大的作用,就是把大批量中低等级的硬件系统集成起来以处理海量数据。


在实践过程中,这种架构逐渐出现内在的不均衡。简单来说,物理机的计算和存储比例是固定的,但是从应用视角来看,计算和存储的比例关系往往是动态的,有些公司计算过剩,有些公司存储过剩,这导致硬件选型成为一个很大的挑战。同时,对于长久存在的大数据系统来说,新老硬件组成的非均质系统也存在负载均衡等管理上的挑战。


随着云架构的发展,无论是公有云,还是私有云,特别是公有云,可以实现存储与计算分离。IaaS 层将计算、存储、网络作为资源动态提供给用户消费,这成为一个最佳实践,完美消除了计算和存储的动态均衡问题。从最优化的角度来看,相对于传统的计算、存储一体化的大数据系统,云平台大数据服务无疑存在一些开销,但是这种形态让大数据集群建设初期要考虑的计算和存储匹配,网络设计等问题都“推迟决策”了,换言之就是不用那么早考虑,在具体业务使用时随用随取,这为业务带来了极大的灵活性。


从这个角度看,基于云架构的大数据系统,本质上提供了灵活性,而对数据业务本身而言,灵活性、动态性恰好是根本,那么基于云架构的大数据服务刚好契合了这些特征。大数据云服务的本质优势是享受更低成本、更快的技术更新。在过往与企业大数据团队打交道的过程中,专家发现其自建的大数据平台还在使用两年以前的开源大数据组件,因为人员的不稳定造成其不敢轻易进行技术升级,或者说没有能力升级,维护的包袱就会越来越重。


综上,业内专家向 InfoQ 表示,相比于本地大数据服务,云大数据服务灵活的本质是计算和存储分离,本质优势是极大得降低了成本,包括环境成本,节省搭建机房,风火水电,网络,操作系统等的时间;研发成本,节省服务搭建,研究周边依赖,可靠性部署,安全对接等的时间;人力成本,大数据运维需要非常专业的人才能胜任,企业应该聚焦在业务上而不是大数据平台的运维上;运行成本,大数据云服务厂家和基础设施的配合可以做到最优,尽可能减少资源消耗。

选用原则

在过往与企业用户打交道的过程中,完全依靠本地大数据服务,选择部分云供应商的大数据服务,在公有云的基础设施之上自建大数据服务的用户皆而有之。


就此现状,InfoQ 采访了华为云布道师赵军。他表示,大数据框架中的服务本身对基础设施并没有强绑定要求,而当前云端的性能、可靠性、可运维性已经足够高。就服务本身而言,所有大数据服务都适合在云端运行,企业应该根据业务类型进行区分。如果业务可以上云,则所有都可使用云端大数据服务。


在具体选用上,可以结合成本构成分析大数据平台的使用,包括如下几方面:


  • 风、火、水、电数据中心的成本

  • IaaS 成本

  • 大数据软件栈的成本

  • 运维大数据软件栈的成本

  • 使用大数据软件栈的团队的成本


其中,大数据软件栈和运维其的成本有些关系,有些用户完全通过开源软件实现,但是实际上付出了极大的人力成本。无论如何,不管是自建还是基于公有云,以上成本都是显性存在的,公有云可以省去一些大数据软件栈搭建及运维的成本,前两项成本则是购买公有云服务和自建的区别。此外,自建服务的弹性较小,云平台可以随时提供弹性能力。


至于云平台大数据服务的价格高昂与否,其实完全取决于公有云服务的定价。对于那些在 IaaS 层面采用自己设计、生产的 CPU、网络、存储等基础设施的公有云厂商来说,往往对于超大客户有比较大的让利能力。


对于不同类型的企业,选择大数据平台服务时关注的点会差异很大。举例来说,更关注成本且需要削峰的,建议优先选择 Serverless 服务;更关注资源隔离和独享的,建议选择包周期的资源类型服务;对于已有大数据平台经验的企业,则优选通用开源大数据开发平台类服务;对接口要求简单通用的,则优选 Serverless 服务。


大数据社区的多样性,导致了选择的多样性。具体原因可能很难一概而论,有的公司想总有一天要建立自己的私有云设施,所以仅希望公有云提供 IaaS;有的公司是因为已经在私有云方面具备很长的历史,团队、经验等都是现成的,因此在公有云的 IaaS 上自行搭建大数据服务。但是,对于绝大部分企业来讲,使用公有云的大数据服务会更省心,成本更低。


赵军表示,华为云目前提供通用的开源大数据开发平台,例如MRS(大数据平台)、DWS(数据仓库)、CSS(搜索引擎)等,帮助原本使用开源大数据平台的用户无缝迁移到华为云大数据平台;Serverless 的大数据服务,例如DIS(数据接入)、CDM(数据迁移)、CS(实时流处理)、CloudTable(表格存储)、DLI(数据湖探索)等,帮助客户按需使用大数据平台资源,支持数据采集、接入、存储、分析等,最低成本帮助客户解决削峰场景,并且与 AI 很好结合,可以让用户更容易使用 AI 技术;数据管理平台,例如DAYU(数据治理),帮助客户解决数据治理相关的问题;全栈大数据服务,包括多种专业化单一引擎的大数据服务;总之,主要意图是希望降低企业获取大数据服务的门槛,做到按需使用。在接口和应用开发体验方面完全与社区一致,同时提供按需、弹性、运维等支持,包括论坛等。


总体来看,企业如何选择取决于公有云运营者能否提供充分的迁移支持,让大数据服务的消费者省心、放心。省心指的是大数据服务与 Hadoop 社区的兼容性,这个兼容性能够让迁移的成本最小甚至无感知。放心指的是大数据服务有强大的团队支持,而不是简单的把 Hadoop 社区的东西拖来安装一下售卖。国内的公有云厂商在这方面的差别还是比较大的,有的走自研道路,可能存在社区兼容性跟进慢等情况;有的基本没有私有云大数据服务,导致自己的大数据服务没有充分锤炼。


短期来看,赵军表示,企业大数据服务的公有云、混合云和多云模式将共同存在。长期来看,公有云和私有云架构将逐渐趋同,甚至提供一致的体验,随着可信规则的建立,公有云可能会慢慢取代私有云,并且是多公有云模式,避免单一厂商锁定。未来,华为云大数据服务的发展方向是:数据安全可信,在华为云已经获得国际上主流的 ISO 27001 & 27017 & 27018 & CSA STAR 四个安全复审和认证的基础上,会在技术上继续发力,让用户进一步认可在公有云上的数据安全;支持 ARM,依托自产硬件,提供极致的成本竞争力;大数据技术更易用,降低使用门槛;与 AI 进行深度结合,让数据发挥更大的价值,让 AI 触手可得;大数据计算自动优化,实现大数据计算的“自动驾驶”。


2019-06-20 08:407120
用户头像
赵钰莹 极客邦科技 总编辑

发布了 893 篇内容, 共 667.5 次阅读, 收获喜欢 2690 次。

关注

评论 1 条评论

发布
用户头像
观点总结:云平台的出现确实对本地大数据服务造成了一定影响,但本地大数据厂商也在积极寻求转型和突破,同样保有自己的核心竞争力(具体可参见:https://www.infoq.cn/article/Lw_DNR4NudHEXLVcLtfo)。此外,这三家Hadoop厂商的衰落并不代表整个生态存在问题,更多是这三家厂商商业模式的问题。
2019-06-20 08:45
回复
没有更多了
发现更多内容

AI大模型高效开发神器来了 ,解读ModelArts 8大能力

华为云开发者联盟

modelarts 大模型 华为云Stack AI 人工智能

华为云开源项目Sermant正式成为CNCF官方项目

华为云开发者联盟

微服务 cncf #云原生 #开源 sermant

【论文速读】| RED QUEEN: 保护大语言模型免受隐蔽多轮越狱攻击

云起无垠

VMware Aria Automation 8.18 发布,新增功能概览

sysin

vmware automation aria

VMware ESXi 8.0U3 Dell (戴尔) 定制版更新 OEM BIOS 2.7 支持 Windows Server 2025

sysin

macos esxi OEM unlocker dell

运营TikTok需要什么网络环境

Ogcloud

云手机 海外云手机 tiktok云手机 tiktok运营 tiktok运营干货

ElevenLabs X-to-Voice:社交账号自动生成能说话的个人页面;OpenAI 正式推出 ChatGPT 搜索

声网

HarmonyOS 5.0应用开发——音频播放组件的封装

高心星

鸿蒙 HarmonyOS 鸿蒙5.0 HarmonyOS NEXT

VMware ESXi 8.0U3 xFusion (超聚变) 定制版更新 OEM BIOS 2.7 支持 Windows Server 2025

sysin

macos esxi OEM Xfusion

RUM最佳实践:内网IP地址映射地图地理位置场景

观测云

RUM

高并发编程/一张图精通CompletableFuture整体执行流程与设计(高手篇)

肖哥弹架构

Java 并发编程 高并发

企业选择云桌面系统的主要原因是什么?

青椒云云电脑

云桌面 云桌面系统

确保数据安全!使用Spring Boot 实现强大的API输入验证

江南一点雨

云行| 雪域高原“智变”数智高地,天翼云助力西藏开启发展新程!

天翼云开发者社区

云计算 云服务 天翼云

数字先锋| 安全高效!天翼云电脑按下綦江数字政府建设“快进键”!

天翼云开发者社区

云计算 云服务

如何在鲲鹏平台上快速上手应用开发?鲲鹏DevKit给你答案

华为云开发者联盟

性能调优 鲲鹏 鲲鹏DevKit

Databend 产品月报(2024年10月)

Databend

有Redis为什么还要本地缓存?谈谈你对本地缓存的理解?

王磊

一文彻底弄懂Java的IO操作

不在线第一只蜗牛

Java Python io

如何低成本实现 Prometheus 数据的长期存储?

Greptime 格睿科技

Prometheus 存储

游戏显卡VS专业显卡:两者有什么区别?

Finovy Cloud

显卡

主流电商平台售后API接口代码【详细】

快递鸟

API 接口

三家Hadoop厂商衰落启示:云大数据是颠覆者吗?_文化 & 方法_赵钰莹_InfoQ精选文章