速来报名!AICon北京站鸿蒙专场~ 了解详情
写点什么

数据湖:下一代企业数据仓库

  • 2019-08-04
  • 本文字数:2383 字

    阅读完需:约 8 分钟

数据湖:下一代企业数据仓库


时过境迁,曾经如日中天的数据仓库现在怎么样了?是大势不减还是已经奄奄一息、苟延残喘?如果你对这个问题感到困惑,那也是情有可原的。一方面,数据仓库的发展势头强劲。作为一个行业的长期观察者,我目睹了这个行业不断涌现的创新活动。

这种趋势是从 10 年前“Applicance Form Factor”成为数据仓库主流开始。几年前,随着市场转向新一代的云数据仓库,这种势头进一步获得了新的动力。在过去几年,云数据仓库供应商 Snowflake 在市场上备受瞩目。

数据仓库黯然失色

另一方面,数据仓库的市场份额被其他技术蚕食,比如大数据、机器学习和人工智能。这种趋势给我们造成了一种印象,即数据仓库在企业 IT 中的优先级地位正在下降。但实际上,大多数企业现在仍然至少需要一个(甚至多个)数据仓库来为下游的应用程序提供服务。


数据仓库是企业的核心工作负载,这也就是为什么几年前我就开始思考为什么数据仓库离“死”还很遥远。或许,这也解释了为什么其他观察者认为他们必须重新定义数据仓库的概念,让它能够在数据湖和云计算时代继续存在下去。


实际上,数据仓库不仅在蓬勃发展,而且被认为是云计算时代的一个核心的增长前沿。如果你的眼球只盯着像 Snowflake 这样的平台,可能会错过很多东西。

数据湖的崛起

人们所说的“数据湖”正在迅速演变成为下一代数据仓库。数据湖是指一种包含多结构数据的系统或仓库,这些数据按照各自的格式和模式进行保存,比如大对象、文件等。


数据湖通常被作为整个企业的存储中心,包括原数据系统的原始数据和转化过的用于报表、可视化、分析和机器学习的数据。它们包含了分布式文件或对象存储、机器学习模型库、高度并行化处理集群和存储资源。数据库不强制使用通用的 schema 和语义,而是在读取数据时使用 schema 和统计模型来抽取有意义的模式。


所有这些都不违背 Inmon 和 Kimball 有关数据仓库的核心概念。从根本上说,数据仓库的存在是为了聚合、保留和管理“单一版本的事实来源”数据。这个概念与使用数据的特定应用程序或用例无关。


如果你对这个说法存有疑惑,可以看一下有关 Bill Inmon 对数据仓库定义的讨论(http://www.b-eye-network.com/view/16066),以及 Inmon 和 Ralph Kimball 两个框架之间的比较(https://www.computerweekly.com/tip/Inmon-or-Kimball-Which-approach-is-suitable-for-your-data-warehouse)。数据仓库是关于基于数据驱动的决策支持,可以扩展到基于人工智能的推理。

下一代数据仓库

在过去的一年里,行业里出现的一些东西表明数据仓库的角色已经发生了转变。尽管决策支持仍然是大多数数据仓库的核心应用场景,但我们也看到了决策自动化正在发生稳步的转变。换句话说,数据仓库现在正在为构建基于数据驱动的推理的机器学习应用程序提供支持。


新一代数据仓库实际上就是数据湖,其首要设计目标是用来管理用于构建和训练机器学习模型的数据。例如,在去年秋季的亚马逊 re:Invent 大会上,AWS 发布了 AWS Lake Formation。这个服务旨在简化和加快数据湖的构建过程。AWS Lake Formation 具备了云数据仓库的所有特征,尽管 AWS 没有把它叫做数据仓库。实际上,该服务提供了一个经典的数据仓库亚马逊 Redshift,主要面向决策支持应用程序。


AWS Lake Formation 的行为看起来很像是数据仓库。事实上,AWS 对它的描述很容易让我们将其与数据仓库做对比:“数据湖是一个集中式的安全数据库,它存储所有数据,包括原始数据和转换过的数据。数据湖可以帮你打破数据孤岛,将不同类型的分析结合起来,从中获得洞见和更好的商业决策指导。


事实上,AWS 将 AWS Lake Formation 描述为一种用于决策支持和人工智能决策自动化的超级数据仓库。AWS 还特别强调,该服务旨在管理数据,“然后用户就可以选择他们的分析和机器学习服务,如 Amazon EMR for Spark、Amazon Redshift、Amazon Athena、Amazon SageMaker 和 Amazon QuickSight”。


值得一提的是,Databricks 最近发布了 Delta Lake 开源项目。Delta Lake 的目标与 AWS Lake Formation 类似:聚合、清理和管理数据湖中的数据集,以便更好地为机器学习提供支持。


Delta Lake 位于数据中心或云平台的数据存储平台之上,比如 HDFS、Amazon S3 或微软 Azure 大对象存储,这些数据存储都可以被 Spark 访问。Delta Lake 使用 Parquet 格式来存储数据,Databricks 将其称为“事务存储层”。Parquet 是一种开源的列式存储格式,Hadoop 生态系统中的每一个项目都支持这种格式,不管使用的是哪一种处理框架。它通过乐观并发序列化、快照隔离、数据版本、回滚和强制 schema 来支持 ACID 事务。


Delta Lake 和 AWS Lake Formation 之间的一个关键区别是 Delta Lake 可以支持批次数据和流式数据。另外,Delta Lake 支持 ACID 事务,可以支持数百个应用程序的并发写入和读取。开发者还可以访问早期版本的数据湖,进行审计和回滚,或者重现 MLFlow 机器学习的结果。


从广泛的层面来看,Delta Lake 似乎要与已经被广泛采用的 Hive 展开竞争。Hive 极度依赖基于 HDFS 的存储,而且直到最近才开始支持 ACID 事务。一年前,Hive 3 将 ACID 事务支持带到了基于 Hadoop 的数据仓库上。Hive 3 可以为 CRUD 操作提供原子性和快照隔离。

基于人工智能驱动的决策自动化基石

行业最近发布的这些东西——AWS Lake Formation、Delta Lake 和 Hive 3——预示着数据湖将成为所有决策支持和决策自动化应用程序和所有事务数据应用程序的治理中心。要加快这种趋势,Hive 3 和 Delta Lake 等开源项目需要进一步吸引供应商和用户的眼球。


“数据仓库”一词的定义可能会发生变化,主要指用于管理商业智能多结构数据的数据存储。不过,底层的数据平台会继续演化,为基于云的人工智能管道提供数据管理基础。


人工智能,而不是商业智能,正在推动着企业数据仓库的演变。


英文原文:https://www.infoworld.com/article/3405443/the-data-lake-is-becoming-the-new-data-warehouse.html


2019-08-04 09:304096
用户头像

发布了 38 篇内容, 共 31.6 次阅读, 收获喜欢 208 次。

关注

评论

发布
暂无评论
发现更多内容

卧薪尝胆30天!啃透京东大牛的高并发设计进阶手册,终获P7意向书

做梦都在改BUG

Java 系统设计 高并发

听听飞桨框架硬核贡献者如何玩转开源!

飞桨PaddlePaddle

开源社区 百度飞桨 PaddlePaddle

500代码行代码手写docker-设置网络命名空间

蓝胖子的编程梦

k8s 容器网络 ,docker 容器网络方案 容器网络平台

腾讯高工内产,Github都没的SpringBoot源码手册

做梦都在改BUG

Java spring Spring Boot 框架

如何设计一个自动化测试平台

老张

自动化测试 测试开发 测试平台

离线版Gerber查看器+PCB/PCBA检测神器新功能!

华秋PCB

工具 电路 元器件 PCB PCB设计

从源码全面解析 dubbo 服务注册的来龙去脉

做梦都在改BUG

Java 源码 dubbo

深度学习进阶篇-国内预训练模型[6]:ERNIE-Doc、THU-ERNIE、K-Encoder融合文本信息和KG知识;原理和模型结构详解。

汀丶人工智能

人工智能 自然语言处理 深度学习 预训练模型 Transformer

阿里技术大佬限产的Netty核心原理剖析手册,看完你不心动?

做梦都在改BUG

Netty

Flutter调优--深入探究MediaQuery引起界面Rebuild的原因及解决办法 | 京东云技术团队

京东科技开发者

flutter 企业号 5 月 PK 榜 MediaQuery rebuild

亿级 GPS 数据如何实现高效存储和查询?不同类型数据库选型分析

爱倒腾的程序员

涛思数据 时序数据库 ​TDengine taosdata

Java中synchronized锁的深入理解

做梦都在改BUG

Java synchronized

2023年互联网大厂Java面试八股文整理(1200+面试题附答案解析)

架构师之道

Java 程序员 面试

NFTScan | 05.22~05.28 NFT 市场热点汇总

NFT Research

NFT 热点

校园共享电动车发展现状及未来趋势

共享电单车厂家

共享电动车厂家 校园共享电单车 校内共享电动车

我翻遍整个牛客网,整理出了全网最全的Java面试八股文大合集,整整6000多页

采菊东篱下

Java 程序员 面试

CST如何查看哪些 GPU 在线?

思茂信息

cst cst使用教程 cst操作 cst电磁仿真 cst仿真软件

2023年天津等级测评机构有哪些?具体位置在哪里?

行云管家

等保 等保测评 等级 天津

【实践篇】手把手教你落地DDD | 京东云技术团队

京东科技开发者

DDD Archetype 企业号 5 月 PK 榜 三层架构

最佳实践:基于vite3的monorepo前端工程搭建 | 京东云技术团队

京东科技开发者

前端 vite Monorepo lodash vue3 vite 企业号 5 月 PK 榜

敏捷项目管理中缺陷bug的跟踪和管理

顿顿顿

Scrum 敏捷开发 缺陷管理 敏捷项目管理 敏捷开发管理工具

堪称一绝!阿里技术人都用的Nginx笔记手册,应用到架构齐全

做梦都在改BUG

nginx

惊艳!京东T8纯手码的Redis核心原理手册,基础与源码齐下

做梦都在改BUG

Java 数据库 redis 缓存

5G和led显示屏有什么关系

Dylan

技术 5G LED显示屏

架构实战营 模块1作业

吴俊

架构实战营

除了运行、休眠…进程居然还有僵尸、孤儿状态

华为云开发者联盟

Linux 开发 华为云 华为云开发者联盟 企业号 5 月 PK 榜

首届百度商业AI技术创新大赛启动 点燃AIGC革新“星火”

百度Geek说

人工智能 百度 AIGC 企业号 5 月 PK 榜

盘点一款好用的运维团队协同软件,用过真香!

行云管家

运维 IT运维 协同合作

渲大师云主机按量付费功能上线!

Finovy Cloud

渲大师 按量付费

Tomcat处理http请求之源码分析 | 京东云技术团队

京东科技开发者

tomcat container HTTP 企业号 5 月 PK 榜

Python压缩JS文件,重点是 slimit

华为云开发者联盟

Python 开发 华为云 华为云开发者联盟 企业号 5 月 PK 榜

数据湖:下一代企业数据仓库_AICon_James Kobielus_InfoQ精选文章