写点什么

数据湖:下一代企业数据仓库

  • 2019-08-04
  • 本文字数:2383 字

    阅读完需:约 8 分钟

数据湖:下一代企业数据仓库


时过境迁,曾经如日中天的数据仓库现在怎么样了?是大势不减还是已经奄奄一息、苟延残喘?如果你对这个问题感到困惑,那也是情有可原的。一方面,数据仓库的发展势头强劲。作为一个行业的长期观察者,我目睹了这个行业不断涌现的创新活动。

这种趋势是从 10 年前“Applicance Form Factor”成为数据仓库主流开始。几年前,随着市场转向新一代的云数据仓库,这种势头进一步获得了新的动力。在过去几年,云数据仓库供应商 Snowflake 在市场上备受瞩目。

数据仓库黯然失色

另一方面,数据仓库的市场份额被其他技术蚕食,比如大数据、机器学习和人工智能。这种趋势给我们造成了一种印象,即数据仓库在企业 IT 中的优先级地位正在下降。但实际上,大多数企业现在仍然至少需要一个(甚至多个)数据仓库来为下游的应用程序提供服务。


数据仓库是企业的核心工作负载,这也就是为什么几年前我就开始思考为什么数据仓库离“死”还很遥远。或许,这也解释了为什么其他观察者认为他们必须重新定义数据仓库的概念,让它能够在数据湖和云计算时代继续存在下去。


实际上,数据仓库不仅在蓬勃发展,而且被认为是云计算时代的一个核心的增长前沿。如果你的眼球只盯着像 Snowflake 这样的平台,可能会错过很多东西。

数据湖的崛起

人们所说的“数据湖”正在迅速演变成为下一代数据仓库。数据湖是指一种包含多结构数据的系统或仓库,这些数据按照各自的格式和模式进行保存,比如大对象、文件等。


数据湖通常被作为整个企业的存储中心,包括原数据系统的原始数据和转化过的用于报表、可视化、分析和机器学习的数据。它们包含了分布式文件或对象存储、机器学习模型库、高度并行化处理集群和存储资源。数据库不强制使用通用的 schema 和语义,而是在读取数据时使用 schema 和统计模型来抽取有意义的模式。


所有这些都不违背 Inmon 和 Kimball 有关数据仓库的核心概念。从根本上说,数据仓库的存在是为了聚合、保留和管理“单一版本的事实来源”数据。这个概念与使用数据的特定应用程序或用例无关。


如果你对这个说法存有疑惑,可以看一下有关 Bill Inmon 对数据仓库定义的讨论(http://www.b-eye-network.com/view/16066),以及 Inmon 和 Ralph Kimball 两个框架之间的比较(https://www.computerweekly.com/tip/Inmon-or-Kimball-Which-approach-is-suitable-for-your-data-warehouse)。数据仓库是关于基于数据驱动的决策支持,可以扩展到基于人工智能的推理。

下一代数据仓库

在过去的一年里,行业里出现的一些东西表明数据仓库的角色已经发生了转变。尽管决策支持仍然是大多数数据仓库的核心应用场景,但我们也看到了决策自动化正在发生稳步的转变。换句话说,数据仓库现在正在为构建基于数据驱动的推理的机器学习应用程序提供支持。


新一代数据仓库实际上就是数据湖,其首要设计目标是用来管理用于构建和训练机器学习模型的数据。例如,在去年秋季的亚马逊 re:Invent 大会上,AWS 发布了 AWS Lake Formation。这个服务旨在简化和加快数据湖的构建过程。AWS Lake Formation 具备了云数据仓库的所有特征,尽管 AWS 没有把它叫做数据仓库。实际上,该服务提供了一个经典的数据仓库亚马逊 Redshift,主要面向决策支持应用程序。


AWS Lake Formation 的行为看起来很像是数据仓库。事实上,AWS 对它的描述很容易让我们将其与数据仓库做对比:“数据湖是一个集中式的安全数据库,它存储所有数据,包括原始数据和转换过的数据。数据湖可以帮你打破数据孤岛,将不同类型的分析结合起来,从中获得洞见和更好的商业决策指导。


事实上,AWS 将 AWS Lake Formation 描述为一种用于决策支持和人工智能决策自动化的超级数据仓库。AWS 还特别强调,该服务旨在管理数据,“然后用户就可以选择他们的分析和机器学习服务,如 Amazon EMR for Spark、Amazon Redshift、Amazon Athena、Amazon SageMaker 和 Amazon QuickSight”。


值得一提的是,Databricks 最近发布了 Delta Lake 开源项目。Delta Lake 的目标与 AWS Lake Formation 类似:聚合、清理和管理数据湖中的数据集,以便更好地为机器学习提供支持。


Delta Lake 位于数据中心或云平台的数据存储平台之上,比如 HDFS、Amazon S3 或微软 Azure 大对象存储,这些数据存储都可以被 Spark 访问。Delta Lake 使用 Parquet 格式来存储数据,Databricks 将其称为“事务存储层”。Parquet 是一种开源的列式存储格式,Hadoop 生态系统中的每一个项目都支持这种格式,不管使用的是哪一种处理框架。它通过乐观并发序列化、快照隔离、数据版本、回滚和强制 schema 来支持 ACID 事务。


Delta Lake 和 AWS Lake Formation 之间的一个关键区别是 Delta Lake 可以支持批次数据和流式数据。另外,Delta Lake 支持 ACID 事务,可以支持数百个应用程序的并发写入和读取。开发者还可以访问早期版本的数据湖,进行审计和回滚,或者重现 MLFlow 机器学习的结果。


从广泛的层面来看,Delta Lake 似乎要与已经被广泛采用的 Hive 展开竞争。Hive 极度依赖基于 HDFS 的存储,而且直到最近才开始支持 ACID 事务。一年前,Hive 3 将 ACID 事务支持带到了基于 Hadoop 的数据仓库上。Hive 3 可以为 CRUD 操作提供原子性和快照隔离。

基于人工智能驱动的决策自动化基石

行业最近发布的这些东西——AWS Lake Formation、Delta Lake 和 Hive 3——预示着数据湖将成为所有决策支持和决策自动化应用程序和所有事务数据应用程序的治理中心。要加快这种趋势,Hive 3 和 Delta Lake 等开源项目需要进一步吸引供应商和用户的眼球。


“数据仓库”一词的定义可能会发生变化,主要指用于管理商业智能多结构数据的数据存储。不过,底层的数据平台会继续演化,为基于云的人工智能管道提供数据管理基础。


人工智能,而不是商业智能,正在推动着企业数据仓库的演变。


英文原文:https://www.infoworld.com/article/3405443/the-data-lake-is-becoming-the-new-data-warehouse.html


2019-08-04 09:304124
用户头像

发布了 38 篇内容, 共 31.8 次阅读, 收获喜欢 208 次。

关注

评论

发布
暂无评论
发现更多内容

企业数字化转型:你的企业处于哪个发展阶段?

积木链小链

数字化转型 数字化 数字化平台

Pandabuy案例分享:微店商品详情数据接口对接反向海淘的成功实践

tbapi

淘宝代购集运系统 Pandabuy 反向海淘系统

Premiere Pro 2024 for Mac(PR 2024视频编辑软件)v24.6.1中文版

理理

Ultimate Vocal Remover(UVR5终极人声去除器) mac软件下载

理理

Oracle与GreatSQL差异:更改唯一索引列

GreatSQL

HarmonyOS 5.0应用开发——用户文件操作

高心星

鸿蒙 HarmonyOS 鸿蒙5.0 HarmonyOS NEXT

ORN Ventures获得5,000万美元A轮融资

财见

软件测试学习笔记丨Flask操作数据库-数据库和表的管理

测试人

软件测试

SnailSVN Pro—— 专业 SVN 工具,开启协作之旅!

理理

【原理】Redis热点Key自动发现机制和客户端缓存方案

京东科技开发者

冲一下深信服,好像有点简单?

王中阳Go

Go 面试

“观测先锋 · 2024 可观测平台创新应用案例大赛“评审团亮相,奖项权益再升级!

博睿数据

astah professional(UML建模工具) v8.5.0激活版

理理

Mac Maya 2025 破解补丁 附玛雅2025中文版安装包

理理

MATLAB R2023b,打造顶级科学计算平台!

理理

PME算法基础及其Python实现

代码忍者

为什么要开发海外电商代购系统?

科普小能手

系统开发 电商系统 海外代购系统 代购系统 代购商城系统

华测检测拟投资常州红海公司,布局电动自行车检测热门增长赛道

财见

上海HR+AI智慧人才港启动,中国人力资本发展大会点亮数字化转型之路

财见

资源利用率提高30%,揭秘华为云Serverless高效、高密度调度优化原理

华为云开发者联盟

资源调度 #Serverless #云原生 华为云FunctionGraph

MySQL 死锁日志分析方法

京东科技开发者

e&宣布2024年Q3收益,合并收入增长10%,达到144亿迪拉姆

财见

博睿数据获评2024中国智能运维领域“最具商业合作价值企业”

博睿数据

多租户系统的应用架构

EquatorCoco

架构 多租户

是否应在 Kubernetes上运行Redis?快手这样做!

快手技术

#k8s

NFTScan Site:以蓝标认证与高级项目管理功能赋能 NFT 项目

NFT Research

NFT\ NFTScan

DbVisualizer Pro for mac(专业的数据库客户端)v24.2.3激活版

理理

YMatrix 6.0 正式发布: 下一代实时分析数仓

YMatrix 超融合数据库

数据库 数据仓库 流计算 YMatrix 实时分析

华为云企业主机安全检测升级,再添容器安全新翼

华为云开发者联盟

企业主机安全 容器安全 云图说 防御安全

Photoshop 2025 for mac(ps 2025图像编辑处理软件)v26.0中文激活版

理理

Beyond Compare 4 mac激活码 Beyond Compare 4下载

理理

数据湖:下一代企业数据仓库_AICon_James Kobielus_InfoQ精选文章