写点什么

数据湖:下一代企业数据仓库

  • 2019-08-04
  • 本文字数:2383 字

    阅读完需:约 8 分钟

数据湖:下一代企业数据仓库


时过境迁,曾经如日中天的数据仓库现在怎么样了?是大势不减还是已经奄奄一息、苟延残喘?如果你对这个问题感到困惑,那也是情有可原的。一方面,数据仓库的发展势头强劲。作为一个行业的长期观察者,我目睹了这个行业不断涌现的创新活动。

这种趋势是从 10 年前“Applicance Form Factor”成为数据仓库主流开始。几年前,随着市场转向新一代的云数据仓库,这种势头进一步获得了新的动力。在过去几年,云数据仓库供应商 Snowflake 在市场上备受瞩目。

数据仓库黯然失色

另一方面,数据仓库的市场份额被其他技术蚕食,比如大数据、机器学习和人工智能。这种趋势给我们造成了一种印象,即数据仓库在企业 IT 中的优先级地位正在下降。但实际上,大多数企业现在仍然至少需要一个(甚至多个)数据仓库来为下游的应用程序提供服务。


数据仓库是企业的核心工作负载,这也就是为什么几年前我就开始思考为什么数据仓库离“死”还很遥远。或许,这也解释了为什么其他观察者认为他们必须重新定义数据仓库的概念,让它能够在数据湖和云计算时代继续存在下去。


实际上,数据仓库不仅在蓬勃发展,而且被认为是云计算时代的一个核心的增长前沿。如果你的眼球只盯着像 Snowflake 这样的平台,可能会错过很多东西。

数据湖的崛起

人们所说的“数据湖”正在迅速演变成为下一代数据仓库。数据湖是指一种包含多结构数据的系统或仓库,这些数据按照各自的格式和模式进行保存,比如大对象、文件等。


数据湖通常被作为整个企业的存储中心,包括原数据系统的原始数据和转化过的用于报表、可视化、分析和机器学习的数据。它们包含了分布式文件或对象存储、机器学习模型库、高度并行化处理集群和存储资源。数据库不强制使用通用的 schema 和语义,而是在读取数据时使用 schema 和统计模型来抽取有意义的模式。


所有这些都不违背 Inmon 和 Kimball 有关数据仓库的核心概念。从根本上说,数据仓库的存在是为了聚合、保留和管理“单一版本的事实来源”数据。这个概念与使用数据的特定应用程序或用例无关。


如果你对这个说法存有疑惑,可以看一下有关 Bill Inmon 对数据仓库定义的讨论(http://www.b-eye-network.com/view/16066),以及 Inmon 和 Ralph Kimball 两个框架之间的比较(https://www.computerweekly.com/tip/Inmon-or-Kimball-Which-approach-is-suitable-for-your-data-warehouse)。数据仓库是关于基于数据驱动的决策支持,可以扩展到基于人工智能的推理。

下一代数据仓库

在过去的一年里,行业里出现的一些东西表明数据仓库的角色已经发生了转变。尽管决策支持仍然是大多数数据仓库的核心应用场景,但我们也看到了决策自动化正在发生稳步的转变。换句话说,数据仓库现在正在为构建基于数据驱动的推理的机器学习应用程序提供支持。


新一代数据仓库实际上就是数据湖,其首要设计目标是用来管理用于构建和训练机器学习模型的数据。例如,在去年秋季的亚马逊 re:Invent 大会上,AWS 发布了 AWS Lake Formation。这个服务旨在简化和加快数据湖的构建过程。AWS Lake Formation 具备了云数据仓库的所有特征,尽管 AWS 没有把它叫做数据仓库。实际上,该服务提供了一个经典的数据仓库亚马逊 Redshift,主要面向决策支持应用程序。


AWS Lake Formation 的行为看起来很像是数据仓库。事实上,AWS 对它的描述很容易让我们将其与数据仓库做对比:“数据湖是一个集中式的安全数据库,它存储所有数据,包括原始数据和转换过的数据。数据湖可以帮你打破数据孤岛,将不同类型的分析结合起来,从中获得洞见和更好的商业决策指导。


事实上,AWS 将 AWS Lake Formation 描述为一种用于决策支持和人工智能决策自动化的超级数据仓库。AWS 还特别强调,该服务旨在管理数据,“然后用户就可以选择他们的分析和机器学习服务,如 Amazon EMR for Spark、Amazon Redshift、Amazon Athena、Amazon SageMaker 和 Amazon QuickSight”。


值得一提的是,Databricks 最近发布了 Delta Lake 开源项目。Delta Lake 的目标与 AWS Lake Formation 类似:聚合、清理和管理数据湖中的数据集,以便更好地为机器学习提供支持。


Delta Lake 位于数据中心或云平台的数据存储平台之上,比如 HDFS、Amazon S3 或微软 Azure 大对象存储,这些数据存储都可以被 Spark 访问。Delta Lake 使用 Parquet 格式来存储数据,Databricks 将其称为“事务存储层”。Parquet 是一种开源的列式存储格式,Hadoop 生态系统中的每一个项目都支持这种格式,不管使用的是哪一种处理框架。它通过乐观并发序列化、快照隔离、数据版本、回滚和强制 schema 来支持 ACID 事务。


Delta Lake 和 AWS Lake Formation 之间的一个关键区别是 Delta Lake 可以支持批次数据和流式数据。另外,Delta Lake 支持 ACID 事务,可以支持数百个应用程序的并发写入和读取。开发者还可以访问早期版本的数据湖,进行审计和回滚,或者重现 MLFlow 机器学习的结果。


从广泛的层面来看,Delta Lake 似乎要与已经被广泛采用的 Hive 展开竞争。Hive 极度依赖基于 HDFS 的存储,而且直到最近才开始支持 ACID 事务。一年前,Hive 3 将 ACID 事务支持带到了基于 Hadoop 的数据仓库上。Hive 3 可以为 CRUD 操作提供原子性和快照隔离。

基于人工智能驱动的决策自动化基石

行业最近发布的这些东西——AWS Lake Formation、Delta Lake 和 Hive 3——预示着数据湖将成为所有决策支持和决策自动化应用程序和所有事务数据应用程序的治理中心。要加快这种趋势,Hive 3 和 Delta Lake 等开源项目需要进一步吸引供应商和用户的眼球。


“数据仓库”一词的定义可能会发生变化,主要指用于管理商业智能多结构数据的数据存储。不过,底层的数据平台会继续演化,为基于云的人工智能管道提供数据管理基础。


人工智能,而不是商业智能,正在推动着企业数据仓库的演变。


英文原文:https://www.infoworld.com/article/3405443/the-data-lake-is-becoming-the-new-data-warehouse.html


2019-08-04 09:304115
用户头像

发布了 38 篇内容, 共 31.7 次阅读, 收获喜欢 208 次。

关注

评论

发布
暂无评论
发现更多内容

动作冒险游戏推荐:泰拉瑞亚Terraria(Win&Mac)中文版

你的猪会飞吗

Mac游戏推荐 单机游戏

苹果电脑最强大的屏幕截图软件TechSmith Snagit for mac中文版下载

理理

全能pdf编辑阅读软件 PDF Reader Pro for mac v4.1.1直装激活版

理理

苹果电脑字体设计编辑器:FontLab for Mac直装版

理理

【ACL2024】面向Stable Station的交互式多轮Prompt生成模型DiffChat

阿里云大数据AI技术

人工智能 阿里云 acl 论文 DiffChat

打造全新AI创作、分享神器!橙篇APP上线,让更多人「自由创作、自在分享」

科技热闻

基于STM32设计的简易手机

DS小龙哥

8月月更

离开大厂为什么会“返贫”?比《逆行人生》更真实~~

博文视点Broadview

Studies for Mac(mac学习记忆工具) v1.8.8直装版

理理

1688代采集运系统:跨境电商世界的神奇魔法棒

tbapi

1688代采系统 1688代采集运系统

重塑商品热度洞察:关键字搜索API返回值中的深度商品热度分析新视角

代码忍者

API 接口 API 测试

Safari 扩展程序Noir – Dark Mode 网页暗模式插件

理理

物联网赋能拍卖平台开发:实现拍卖流程的智能化、透明化

软件开发-梦幻运营部

Tipard Blu-ray Converter for Mac (蓝光视频转换软件) v10.0.72激活版

理理

从0到1:AI与低代码如何推动企业创新

天津汇柏科技有限公司

低代码 AI 人工智能

FSNotes for mac 纯文本、Markdown和富文本格式(RTF)

理理

Mac批量重命名工具A Better Finder Rename(ABFR)附注册码

理理

照片修复着色工具PhotosRevive for Mac v2.1.6中文激活版

理理

华为云重磅参会 KubeCon China 2024,精彩议程揭晓 !

华为云原生团队

云计算 容器 云原生

小度学习机Z30 怎么样

妙龙

学习机

深度剖析京东JD商品详情API返回值结构:解锁商品数据的新维度

代码忍者

API 接口 API 测试

华为大咖说丨关于AI大模型发展的商业思考

华为云PaaS服务小智

人工智能 华为云

“JVM” 上的AOP:Java Agent 实战

阿里技术

Java spring 阿里 aop

区块链“NFT盲盒”模式系统的开发逻辑讲解

V\TG【ch3nguang】

NFT盲盒系统开发

非扁平网络场景下,基于开源istio治理CCE多集群

华为云开发者联盟

开源 CCE 企业号 8 月 PK 榜 企业号2024年8月PK榜

​​万界星空科技低代码云mes,更适合中小企业的mes系统

万界星空科技

低代码 低代码平台 mes 云mes 万界星空科技

火山引擎ByteHouse助力车企实现高性能数据分析

字节跳动数据平台

大数据 数据仓库 云原生 Clickhouse

Xinference实战指南:全面解析LLM大模型部署流程,携手Dify打造高效AI应用实践案例,加速AI项目落地进程

汀丶人工智能

人工智能 大模型 xinference

Geekbench AI 命令行工具及故障排除

理理

fabric.js 实现服装/商品定制预览效果

秦少卫

开源项目 FabricJS Fabric.js 开源项目介绍

单条记录大小增长倍数和ibd文件大小的增长倍数不成正比

GreatSQL

数据库 greatsql

数据湖:下一代企业数据仓库_AICon_James Kobielus_InfoQ精选文章