写点什么

十年 Hadoop 退居幕后,数据云横空出世

  • 2021-08-10
  • 本文字数:3532 字

    阅读完需:约 12 分钟

十年 Hadoop 退居幕后,数据云横空出世

大数据领域从来都不缺乏重磅消息。尤记得 Cloudera 与 Hortonworks 宣布合并,后又被 KKR 和 CD&R 收购并被私有化,再加上 HPE 收购 MapR,曾经凭借 Hadoop 冲上云霄的三驾马车,如今风光不再。此外,今年 Apache 软件基金会(ASF)宣布将其至少 19 个开源项目撤回到 Apache Attic(用于归档的开源项目),其中有 10 个项目属于 Hadoop 生态系统。


Hadoop,这个统治大数据分析处理领域十年的开源框架,如今虽然产品本身强健,但相关的生态和商业化公司却过得越来越惨。市场上不免唏嘘,以 Hadoop 为代表的大数据时代已经落幕。究其原因,如今的企业在数据处理方面的场景,已经和十年前出现天翻地覆的差别:数据来源更加复杂;数据处理的量级大幅增长;数据消费的认知门槛在变低,更重要的是,消费数据的人也变了。


从前,数据分析师是数据的消费者,如今一线业务人员是数据的消费者。


这种变化并不难理解。今天轰轰烈烈的数字化转型,从某种意义上来说,就是在与这个问题较劲:数字化带来的数据,必须要适应业务、赋能业务,满足业务人员的需求,否则对企业而言就很难有实际的效率提升。


这种需求直接催生了大批的大数据云平台,比如 Kyligence Intelligent Data Cloud( Kyligence 智能数据云)、Cloudera Data Platform 等,其中又以 Kyligence 最为典型。Kyligence 由 Apache Kylin(领先的开源分布式 OLAP 分析引擎)核心团队创立,后者是第一个由国人贡献的 Apache 顶级开源项目,最早基于 Hadoop 的 OLAP 引擎开发而来,并在 2019 年宣布完全脱离 Hadoop。


InfoQ 为此特别采访了 Kyligence 联合创始人兼 CTO 李扬,试图搞清楚智能数据云到底要解决什么问题,以及如何解决这些问题。


Kyligence 联合创始人兼 CTO 李扬


让人头痛的四类问题

李扬首先举了一个很常见的需求,客户经常会问:“你有没有一个数据平台能够搞定各种分析场景?”


这不是无理取闹,而是反映了行业的实际情况。今天的数据分析处理行业,首先要适配复杂的数据生产场景:既要处理结构化数据,也要处理非结构化数据;既要做批式处理,也要做流式处理;数据源不是集中式的,而是“烟囱式”的。


其次,要适应不同的基础设施。今天,上云是每一个企业都要考虑的终极选择,多云、混合云都是常见的场景。


另外,对新的数据分析技术要友好,有可扩展性;


最后,数据分析必须要为一线业务人员服务,而不仅只为数据科学家服务,保证计算效率的同时,缩短从技术到效能的转化链路。


Kyligence 4.5 的发布,算是对以上问题有了一个集中回答。而答案大致可以分为三个维度:


  1. 统一受治理的数据集市

  2. 全面拥抱云原生

  3. 引入 AI 增强技术


统一受治理的数据集市与全面拥抱云原生

李扬首先描述了智能数据云的设计理念:“在做强分析能力的基础上,增强数据管理能力,以人工智能进一步替代人工工作,以云原生进一步替代基于 Hadoop 的基础架构,让数据服务与管理发挥核心作用,帮助企业智能管理最有价值数据,支持企业全面数字化转型。”



关于对复杂数据生产场景的适配,Kyligence 4.5 提供了两层方案。


一层方案叫做“统一受治理的数据集市”:通过 SQL、MDX、以及 Rest API 等多种接口连接各个数据源,包括流式数据、数据库、数据湖及云,用这种方式统一“烟囱式”的数据。


另外一层方案叫做“统一语义层”,意思是通过统一的业务语义层将复杂的数据映射为业务语言,并以服务的形式为每一个数据消费方在 PB 级别数据规模上提供统一的数据定义及行业标准的访问接口(标准 SQL 及 MDX),为业务提供一致的、标准的数据口径。


“相对于一般的数据库来说,智能数据云是基于业务数据模型设计的”,李扬说。最终呈现到门店经理眼前的,不是关系表、星形模型、英文的表名、列名等技术层面的内容,而是由指标、标签等业务人员常常打交道的内容组成的多维分析模型。


通过这两层方案,Kyligence 完成了对不同业务场景、繁杂海量数据的收集和汇总。


除此之外,Kyligence 4.5 另一个重要更新在于正式支持批流一体。自从 Apache Flink 成熟,业内就开始关注批流一体,试图统一流计算和批计算接口,避免 Spark 和 Flink 打"混双"。去年阿里“批流一体”抗住了双十一 40 亿条/秒的实时计算峰值,算是帮业内吃了定心丸。而在数据分析处理行业,动作快的如 Kyligence 也快速完成了对批流一体的支持。


但至此,当下的数据云平台还不算“搞定各种分析场景”,在基础设施层面,还有另一个关键词必须要注意,它叫做“云原生”。


这里的云原生,重点解决的是数据处理的基础设施和场景问题,也是目前行业内比较统一的发展方向。可以说,以 Hadoop 发行版为立家之本的商业公司,基本都先后受到了云原生理念的冲击,一部分是产品上的,一部分是生态上的。


云计算实现了更低成本,云原生则实现了对业务的赋能,无论是 AWS S3 还是 Kubernetes,都实现了某种技术或生态上对 Hadoop 的替代。Hadoop 庞大的集群部署和公有云的冲突尤其明显,即便是部分企业无法接受 100% 上云,混合云的理念也无疑更适合未来发展。以“存算分离”为代表的云原生概念,更是当下整个业界探索的主流。


所以,各厂商无一例外的全面拥抱云原生。唯一的问题是对云计算厂商的适配问题。


Kyligence 已经支持了多个公有云平台,包括微软 Azure 、亚马逊 AWS,今年 6 月发布了 Kyligence on Huawei Cloud,进展还是非常不错。据透露,Kyligence 后续还会登陆谷歌云、阿里云、腾讯云。在 7 月的 Kyligence Data & Cloud Summit 2021 行业峰会上,Kyligence 则进一步阐释了这种上云构想:


“未来我们也希望能保证我们的客户在多个云的不同架构和平台上,业务的使用方式、体验和接口都是一致的,即使你迁移到一个云平台,上层应用不用改变。在公有云上,我们完全没有了 Hadoop 的依赖,只依赖了云的对象存储和计算资源,可以做到自动缩容,自动监控。”


此外,Kyligence 也发布了“玄武计划”,目的在于加速基于 Kubernetes 及分布式对象存储等架构的私有云产品落地。


对云原生的拥抱,同时也解决了对新技术的开放性问题。传统的 Hadoop 架构,很难及时拥抱新技术。但是 Kyligence 4.5 版本已经整合了大火的 ClickHouse。


Kyligence CTO 李扬对此解释道:“大数据分析产品必须在灵活性、成本、性能方面做平衡,ClickHouse 偏向灵活性,原来 Apache Kylin 偏向性能或成本。一般来说,新业务需要灵活度,更适合 ClickHouse ;成熟的业务看中降本提效,适合 Apache Kylin 。但一个业务总归是要走向成熟的,与其事到临头,在架构层面做整体替换,我们更倾向整合 Kylin 和 ClickHouse ,在顶层保有一个统一的数据分析入口。”


“群体智慧”:AI 增强

至此,数据云平台已经解决了很多问题,不过企业数字化转型过程中面临的一大核心痛点仍未解决:如何让普通业务人员也能通过大数据技术受益,切实把技术突破转变为业务增长。


这个问题的解法大概分为两步:


  1. 找出对业务有帮助的数据主题

  2. 基于该数据主题建立模型,并分享给普通员工


但第一步通常比第二步要难上许多。因为对于企业而言,定义一个业务主题通常也是件困难的事:一个业务主题之下,包含哪些指标、维度才足够准确和周全?


尤其是对于员工规模千人以上的企业而言,“很难找到一个人,能够从上向下的一下子把统一模型给定义出来”。


Kyligence 的解法是引入 AI 增强技术。AI 增强技术是一门新兴的数据分析方式,是 2019 年 Gartner 列举的十大战略性技术趋势之一。Gartner 认为,这种方式借助了机器学习和 AI,可以降低数据使用门槛,让更多用户进行数据分析。



AI 增强算法能够根据用户群体的使用习惯,自动发现和推荐新的业务数据模型,比如从上万条 SQL 中,发现最有价值的表关联、维度和度量的组合。


李扬围绕 AI 增强进一步解释道,假设一家企业有几千个门店经理,平台会赋能每一个门店经理,AI 增强算法则通过持续观察这些人每天分析数据的模式,就能在其中找到一个共有的业务模式,提炼出业务数据主题模型。李扬也将这种自下而上的定义方法称为:群体的智慧。


此外,数据人员也可以连接来自不同主题的业务对象,研究新的数据规律,发现或创造新的有价值的业务数据。


以上种种,让“普通员工读懂数据”成为可能。李扬总结道:“通过 AI 进行整个数据处理,再反馈到 AI,这是一个正循环。我们希望接下来通过统一的数据服务接口,不仅能服务于 BI,也能够服务于更多的 AI 场景上,让一个平台能同时服务于数据科学家、业务用户等多种数据消费者。”


结语

受治理的数据集市、统一语义层、批流一体、云原生支持、AI 增强,基本回答了数据处理领域的核心命题:做什么,怎么做。未来,该领域产品势必要围绕两个基本条件做迭代:


  • 能用,意味着产品能够适用于企业目前的架构条件

  • 好用,意味着产品能够为企业创造价值


我们也乐于看到,未来有更多优秀的数据分析产品,做好“发掘数据价值”这一数字化转型核心工作。

 

2021-08-10 15:055350
用户头像
王一鹏 前 InfoQ 总编辑

发布了 164 篇内容, 共 113.0 次阅读, 收获喜欢 479 次。

关注

评论

发布
暂无评论
发现更多内容

产品服务谁?产品做什么服务?

Bonaparte

产品 产品设计 产品思维 产品服务

本地 IDC 中的 K8s 集群如何以 Serverless 方式使用云上计算资源

阿里巴巴云原生

阿里云 Serverless 云原生

PoseiSwap 即将开启 POSE 单币质押,治理体系将全面运行

股市老人

IDE暗黑主题推荐-Dracula

越长大越悲伤

ide 前端 后端 插件 主题

VSCode同时编译多个C文件

codists

Visual Studio Code

通过降本增效,提升测试价值

老张

研发效能 降本增效

Java干货分享—Calendar 类的使用

java易二三

Java 编程 程序员

openGauss都做了哪些算子优化工作?

daydayup

opengauss

PoseiSwap 即将开启 POSE 单币质押,治理体系将全面运行

大瞿科技

场景题-如果让你写一个消息队列,该如何进行架构设计啊?说一下你的思路。

派大星

Java 面试题

INFINI Labs 产品更新 | Easysearch 新增分词插件、Gateway 支持邮件发送等功能

极限实验室

ES 产品更新 极限科技

如何通过网关降低大模型的调用费用,并提升合规性

阿里巴巴云原生

阿里云 云原生 网关

异步编程框架:Workflow的计算调度算法

1412

c++ 开源 异步编程 workflow 调度算法

openGauss DBMind上的多指标关联性分析介绍

daydayup

opengauss

openGauss:共建数据库根社区,打造开源数据库核心竞争力

daydayup

opengauss

PoseiSwap 即将开启 POSE 单币质押,治理体系将全面运行

西柚子

AI开发硬件基础经验

timerring

AI

PoseiSwap 即将开启 POSE 单币质押,治理体系将全面运行

BlockChain先知

2023-07-22:一共有n个项目,每个项目都有两个信息, projects[i] = {a, b}, 表示i号项目做完要a天,但是当你投入b个资源,它就会缩短1天的时间, 你一共有k个资源,你的目

福大大架构师每日一题

福大大架构师每日一题

ZBC Staking 即将开启,全新利好来袭

鳄鱼视界

openGauss数据库源码解析系列文章——执行器解析

daydayup

opengauss

文本生成图像DALL·E 2背后的原理——Diffusion Model | 社区征文

秃头小苏

年中技术盘点

C语言实现哈希搜索算法

芯动大师

一个逻辑完备的线程池

1412

c++ 开源 线程池 异步编程 workflow

十年 Hadoop 退居幕后,数据云横空出世_AI&大模型_王一鹏_InfoQ精选文章