数据湖已成为行业数据架构的主流
什么是数据湖?
数据湖是一个集中式存储库,允许企业以任意规模存储所有结构化和非结构化数据。企业可以按原样存储数据(无需先对数据进行结构化处理),并运行不同类型的分析 – 从控制面板和可视化到大数据处理、实时分析和机器学习,以指导做出更好的决策。
近十年,数据基建市场在蓬勃增长, 根据 Gartner 报道,2019 年数据基建方面的采购费用飙升到 660 亿美元,占据基础架构类软件费用的 24%。 A16Z (美国知名科技企业风投机构)经过调查相关业内人士得出一个现代化数据架构中, 数据湖已成为数据分析架构中的中流砥柱,赫然在列数据分析架构的核心位置。
(图片来源:https://a16z.com/2020/10/15/the-emerging-architectures-for-modern-data-infrastructure/)
亚马逊,微软等大型公有云厂商也相继推出了以其对象存储为核心的数据湖方案,数据湖已经成为业界事实标准的新型数据平台架构选择。
AWS 数据湖解决方案
Azure 数据湖解决方案
数据湖面临的挑战
数据分析基建用于服务两类常见的分析场景:
一种是用已知数据的解答分析问题,行业通常使用传统数仓;
另一种是使用未知数据来解答未知问题,通常使用数据湖。
在这两种场景之上,为了满足生产级的分析需求,企业需要进行选型来解决,数据湖和数据仓库之上的这片“模糊地带”的需求。
同时,数据和分析管理者也在面临着无法从数据湖项目中获取价值的挑战,数据湖虽然适合存储数据,但数据湖缺少很多重要的能力:
它不支持数据事务,它不保证数据质量,并且它缺少数据一致性,数据独立性,这使得它很难混合加载和读取,批量和流量作业。由于以上的原因, 数据湖通常难以达到生产级的分析需求(考虑并发度,查询延迟,和查询负载)。
(图片选自 Gartner:Market Guide for Analytics Query Accelerators)
模糊地带的解决方案
Gartner 建议对于已经搭建数据湖的企业来说解决这些挑战的方案是选型分析查询加速方案。根据 Gartner 于 2020 年 12 月最新发布的的分析查询加速的市场引导报告(Market Guide for Analytics Query Accelerators)中, Gartner 介绍到分析查询加速方案提供了一种使灵活语义的数据存储中的数据更易于生产和探索性使用的方式。 分析查询加速方案用于提升“模糊地带”的查询性能从而使得数据湖可以足以支持生产级别的查询负载。
在这份报告中 Gartner 还列举了市面上的分析查询加速方案的代表厂商, Kyligence 是其中在列的唯一来自中国的厂商。
(图片选自 Gartner:Market Guide for Analytics Query Accelerators)
查询加速方案如何选型?
Gartner 推荐数据和分析管理者对数据管理解决方的以下几个方面进行评估以其在分析查询加速方面的能力:
在 POC 中使用最复杂的查询场景来检验待评估平台的查询性能是否达到预期水平,是否给数据湖提供足够的查询优化。
测试待评估平台对接相关云上数据存储服务和 BI 工具的能力。
评估数据安全和数据治理能力是否符合企业的标准和要求。
待评估平台是否使用开放的数据存储格式如 Parquest, ORC 或 Avro 等。使用自有格式可能会导致厂商锁定或无法通过 API 进行访问。
查询加速方案的关键使用场景
访问,探索,合并多种数据类型
加速数据湖之上的报表分析
使用数据虚拟化混合数仓/数据集市中的结构化数据
对底层数据结构的理解和分析优化
使得在开放格式中的数据查询性能更佳或使用更便捷
查询加速方案的应用场景介绍
Kyligence 在服务企业时作为查询加速方案用户用于服务多家企业实现不同的应用场景,让我们来看一下一些企业在落地查询加速方式时的实际案例。
场景 1:赋能数据平民分析师
平民数据分析的概念来自 Gartner,指这些在企业中主要工作职能不是统计和分析,他们拥有其专业领域的技能,在工作中需要使用数据分析,而过去是数据分析专家才能做的。Gartner 也指出,企业的数据分析领导者需要去更多地赋能这样的平民数据科学家来实现整个企业的数据分析。
企业行业:金融业,银行
部署方式:本地部署
使用技术:Hadoop,Kyligence,Tableau
该银行的数据仓库团队通过使用 Kyligence 对接传统数仓和大数据上的存储格式, 使用 Kyligence 实现查询加速并构建统一的语义模型,将语义模型发布到 Tableau Server 中提供给各个分行的业务人员进行自助式分析 ,目前已支撑分行业务人员(平民数据分析师)进行自助式数据分析,利用 Kyligence 的查询加速能力,即使在用户查询并发上千的情况下,也能保证 Tableau 报表的及时响应。
场景 2:数据湖之上的统一语义层
企业行业:零售
部署方式:Azure 云上部署
使用技术:Azure Data Lake Stoarge (ADLS), Spark, Kyligence, Excel,Power BI
该零售企业在 Azure 云上使用 ADLS, Spark, Kyligence, Excel,Power BI 在 搭建端到端的数据服务 ,利用 Kyligence 整合各个业务条线的数据源,实现全渠道的整合分析,利用云上服务的灵活可扩展性,弹性支持业务分析需求的波动,并能支撑到细粒度的数据分析需求,终端业务用户仅需要使用 Excel 就可以对接数据服务完成分析,升级切换该架构后,用户无感知,不需要话费额外的学习成本,从而提高了服务的推广效率。
小结
通过阅读 Gartner 的这份报告,我们可以看到一个新的数据分析细分市场正在兴起。对于企业来说,在数据量指数级增长、数据分析需求日趋复杂的大趋势下,如何制定一份可顺应变化的技术架构,除了考虑企业自身架构的现状外,可以参考 Gartner 对数据湖之上的这个查询加速方案。
参考文献
Emerging Architectures for Modern Data Infrastructure:
https://a16z.com/2020/10/15/the-emerging-architectures-for-modern-data-infrastructure/
Market Guide for Analytics Query Accelerators:
https://www.gartner.com/en/documents/3994139/market-guide-for-analytics-query-accelerators
什么是数据湖:
https://aws.amazon.com/cn/big-data/datalakes-and-analytics/what-is-a-data-lake/
Azure Data Lake:
Citizen Data Science Augments Data Discovery and Simplifies Data Science:
CItizen Data Scientist and Why They Matter?
https://blogs.gartner.com/carlie-idoine/2018/05/13/citizen-data-scientists-and-why-they-matter/
作者介绍:
何京珂,Kyligence 产品总监,数据分析资深从业者。
本文转载自公众号 Kyligence(ID:Kyligence)。
原文链接:
评论