写点什么

Gartner 报告最新解读:数仓 or 数据湖?

2021 年 1 月 14 日

Gartner 报告最新解读:数仓 or 数据湖?

数据湖已成为行业数据架构的主流


什么是数据湖?


数据湖是一个集中式存储库,允许企业以任意规模存储所有结构化和非结构化数据。企业可以按原样存储数据(无需先对数据进行结构化处理),并运行不同类型的分析 – 从控制面板和可视化到大数据处理、实时分析和机器学习,以指导做出更好的决策。


近十年,数据基建市场在蓬勃增长, 根据 Gartner 报道,2019 年数据基建方面的采购费用飙升到 660 亿美元,占据基础架构类软件费用的 24%。 A16Z (美国知名科技企业风投机构)经过调查相关业内人士得出一个现代化数据架构中, 数据湖已成为数据分析架构中的中流砥柱,赫然在列数据分析架构的核心位置。



(图片来源:https://a16z.com/2020/10/15/the-emerging-architectures-for-modern-data-infrastructure/


亚马逊,微软等大型公有云厂商也相继推出了以其对象存储为核心的数据湖方案,数据湖已经成为业界事实标准的新型数据平台架构选择。



AWS 数据湖解决方案



Azure 数据湖解决方案


数据湖面临的挑战


数据分析基建用于服务两类常见的分析场景:


  • 一种是用已知数据的解答分析问题,行业通常使用传统数仓;

  • 另一种是使用未知数据来解答未知问题,通常使用数据湖。


在这两种场景之上,为了满足生产级的分析需求,企业需要进行选型来解决,数据湖和数据仓库之上的这片“模糊地带”的需求。


同时,数据和分析管理者也在面临着无法从数据湖项目中获取价值的挑战,数据湖虽然适合存储数据,但数据湖缺少很多重要的能力:


它不支持数据事务,它不保证数据质量,并且它缺少数据一致性,数据独立性,这使得它很难混合加载和读取,批量和流量作业。由于以上的原因, 数据湖通常难以达到生产级的分析需求(考虑并发度,查询延迟,和查询负载)。



(图片选自 Gartner:Market Guide for Analytics Query Accelerators)


模糊地带的解决方案


Gartner 建议对于已经搭建数据湖的企业来说解决这些挑战的方案是选型分析查询加速方案。根据 Gartner 于 2020 年 12 月最新发布的的分析查询加速的市场引导报告(Market Guide for Analytics Query Accelerators)中, Gartner 介绍到分析查询加速方案提供了一种使灵活语义的数据存储中的数据更易于生产和探索性使用的方式。 分析查询加速方案用于提升“模糊地带”的查询性能从而使得数据湖可以足以支持生产级别的查询负载。


在这份报告中 Gartner 还列举了市面上的分析查询加速方案的代表厂商, Kyligence 是其中在列的唯一来自中国的厂商。



(图片选自 Gartner:Market Guide for Analytics Query Accelerators)


查询加速方案如何选型?


Gartner 推荐数据和分析管理者对数据管理解决方的以下几个方面进行评估以其在分析查询加速方面的能力:


  • 在 POC 中使用最复杂的查询场景来检验待评估平台的查询性能是否达到预期水平,是否给数据湖提供足够的查询优化。

  • 测试待评估平台对接相关云上数据存储服务和 BI 工具的能力。

  • 评估数据安全和数据治理能力是否符合企业的标准和要求。

  • 待评估平台是否使用开放的数据存储格式如 Parquest, ORC 或 Avro 等。使用自有格式可能会导致厂商锁定或无法通过 API 进行访问。


查询加速方案的关键使用场景


  • 访问,探索,合并多种数据类型

  • 加速数据湖之上的报表分析

  • 使用数据虚拟化混合数仓/数据集市中的结构化数据

  • 对底层数据结构的理解和分析优化

  • 使得在开放格式中的数据查询性能更佳或使用更便捷


查询加速方案的应用场景介绍


Kyligence 在服务企业时作为查询加速方案用户用于服务多家企业实现不同的应用场景,让我们来看一下一些企业在落地查询加速方式时的实际案例。


场景 1:赋能数据平民分析师


平民数据分析的概念来自 Gartner,指这些在企业中主要工作职能不是统计和分析,他们拥有其专业领域的技能,在工作中需要使用数据分析,而过去是数据分析专家才能做的。Gartner 也指出,企业的数据分析领导者需要去更多地赋能这样的平民数据科学家来实现整个企业的数据分析。



企业行业:金融业,银行


部署方式:本地部署


使用技术:Hadoop,Kyligence,Tableau



该银行的数据仓库团队通过使用 Kyligence 对接传统数仓和大数据上的存储格式, 使用 Kyligence 实现查询加速并构建统一的语义模型,将语义模型发布到 Tableau Server 中提供给各个分行的业务人员进行自助式分析 ,目前已支撑分行业务人员(平民数据分析师)进行自助式数据分析,利用 Kyligence 的查询加速能力,即使在用户查询并发上千的情况下,也能保证 Tableau 报表的及时响应。


场景 2:数据湖之上的统一语义层


企业行业:零售


部署方式:Azure 云上部署


使用技术:Azure Data Lake Stoarge (ADLS), Spark, Kyligence, Excel,Power BI



该零售企业在 Azure 云上使用 ADLS, Spark, Kyligence, Excel,Power BI 在 搭建端到端的数据服务 ,利用 Kyligence 整合各个业务条线的数据源,实现全渠道的整合分析,利用云上服务的灵活可扩展性,弹性支持业务分析需求的波动,并能支撑到细粒度的数据分析需求,终端业务用户仅需要使用 Excel 就可以对接数据服务完成分析,升级切换该架构后,用户无感知,不需要话费额外的学习成本,从而提高了服务的推广效率。


小结


通过阅读 Gartner 的这份报告,我们可以看到一个新的数据分析细分市场正在兴起。对于企业来说,在数据量指数级增长、数据分析需求日趋复杂的大趋势下,如何制定一份可顺应变化的技术架构,除了考虑企业自身架构的现状外,可以参考 Gartner 对数据湖之上的这个查询加速方案。


参考文献



作者介绍


何京珂,Kyligence 产品总监,数据分析资深从业者。


本文转载自公众号 Kyligence(ID:Kyligence)。


原文链接


Gartner 报告最新解读:数仓 or 数据湖?

2021 年 1 月 14 日 10:001288

评论

发布
暂无评论
发现更多内容

Patract 12条产品线,助力波卡打造优质Wasm合约生态

Patract

rust blockchain polkadot Patract Wasm

访谈|探索 Wasm 合约的无限可能

Patract

智能合约 blockchain polkadot Patract Wasm

无人驾驶平台,让IT没有难做的测试

鲸品堂

方法论 无人驾驶

DevEco Studio 2.1 Beta3强势来袭

Geek_283163

华为 鸿蒙 开发

一周信创舆情观察(3.22~3.28)

统小信uos

Adobe官方旗舰店,现已上线“Adobe国际认证”专家证书

Adobe国际认证

Patract 与Apron Network就 Elara节点服务相关产品达成战略合作

Patract

rust blockchain polkadot Patract Wasm

RTC技术干货 | 音频质量评价体系那些事

拍乐云Pano

音视频 WebRTC RTC 3A算法 音频

区块链电子合同签署平台搭建,区块链电子存证解决方案

13828808769

区块链+ #区块链#

凡尔赛一波:凭这份阿里面试突击指南,我已经拿了9张Offer

程序员小毕

Java 程序员 架构 面试 分布式

节能降耗——搭建绿色IDC能耗与管控系统

一只数据鲸鱼

物联网 数据中心 数据可视化 IDC 机房管理

4K Video Downloader V6.1.50 版本正式发布

科技猫

产品 软件 行业资讯 开发日志 发布

架构方法学习总结

cafebaby

FloydHub 2020年最佳机器学习书籍之一《可解释机器学习》中文版来啦!

博文视点Broadview

年纪轻轻,为什么要搞中间件开发?“路怎么走,让你们自己挑”

小傅哥

Java 分布式 小傅哥 中间件 架构设计

多真算真?!广告对于“真实”的追求如何实现

󠀛Ferry

七日更 4月日更

大厂面试必问!Android彻底组件化方案实践方法!面试总结

欢喜学安卓

android 程序员 面试 移动开发

安卓开发从零开始!分析Android未来几年的发展前景,安卓系列学习进阶视频

欢喜学安卓

android 程序员 面试 移动开发

愚人节快乐,但TcaplusDB永不愚你

TcaplusDB

c++ 数据库 后端 TcaplusDB

运算符

在即

28天写作 28天挑战 3月日更

EGG NETWORK阿凡提以“自由匿名竞价”流通市场EFTalk

币圈那点事

Redis-技术专题-数据日志持久化

李浩宇/Alex

redis 持久化 aof rdb

九城200万美元加码FIL挖矿,IPFS有投资价值吗?FIL币价格今日行情

投资矿机v:IPFS1234

九城200万美元加码FIL挖矿 FIL币价格今日行情 IPFS有投资价值吗

微众银行区块链开源基于Rust的Wasm合约语言框架Liquid

Patract

智能合约 rust polkadot Patract Wasm

gorm源码阅读之callback

werben

golang gorm

区块链电子印章签约平台的搭建,区块链电子签约解决方案

13828808769

区块链 #区块链#

公安合作作战指挥中心,情报分析研判系统建设

13823153121

Patract 官网升级新上线,Wasm 合约开放平台优雅启幕

Patract

智能合约 blockchain polkadot Patract Wasm

Patract转型为解决方案提供商,携手Acala首推Wasm合约开放平台计划

Patract

智能合约 blockchain polkadot Patract Wasm

阿里云:城市大脑数据智能解决方案

不脱发的程序猿

阿里云 大数据分析 城市大脑 数据智能解决方案 4月日更

量化策略系统搭建,马丁策略交易软件

13823153121

演讲经验交流会|ArchSummit 上海站

演讲经验交流会|ArchSummit 上海站

Gartner 报告最新解读:数仓 or 数据湖?-InfoQ