写点什么

事件流处理:数据仓库的可伸缩替代品

  • 2008-11-09
  • 本文字数:834 字

    阅读完需:约 3 分钟

Dan Pritchett 在博客上提出了一种数据仓库应用的替代方案。虽然厌恶“只能单一位置及单一存储空间上实现的方案”,他也承认有时候必须先聚合数据才能作分析。他所说的正是数据仓库应用的功能——沿着某些变量轴聚合信息并转化数据间的关系。而在 Pritchett 看来,数据仓库应用在使用中有许多缺点。数据仓库应用不仅非常昂贵,“比较小的组织一般难以企及”,而且 ETL(Extract, Transform and Load,提取、转换、装载)软件的工作方式意味着要付出可伸缩性和反应能力的代价:

首先,ETL 给生产数据库增加了明显的负担。如果你的业务有空窗期可以做 ETL,那是最好的;如果没有,管理可伸缩性就是很大的挑战。第二,数据仓库里的数据新鲜度一般滞后 24 小时或更长,随着业务增长,滞后时间会越来越长。

Dan Pritchett 相信有一种方案更便宜,也更可伸缩:用 ESP( Event Stream Processor )处理事件流。

ESP 用类似 SQL 的语言处理各种事件流。与数据库和数据仓库通过 SQL 分析数据表类似,ESP 用它们的查询语言分析事件流。要想理解 ESP,可以把事件类比成数据库表中的行,而事件的属性则对应数据库表的列。每一种事件类型就等于是一张表。 […]

[ESP 分析] 数据的变化,而且就在变化发生的当时分析。我们不再进行批量的 ETL,而是把业务事件变成一连串的数据状态变化。这就创造出一种更易于管理的生产系统的伸缩模型。

[…]

ESP 可以做水平伸缩,因此可以达至一种更具成本效益的业务方案。而且由于 ESP 执行分析是实时的,因此得到的业务指标更加应时,并且不受业务增长的影响。

Dan 也特别指出这种方法的弱点,就是不能进行历史性的分析,不能从当前以外的角度去观察业务活动。Pritchett 提出用一种捕捉并重演事务的框架去克服此弱点,不过该方案相当昂贵。Tahir Akhtar 在帖子的留言中提出另一种弥补方法:用 ESP 替代 ETL,但在享用 ESP 的可伸缩性和反应能力优势的同时,继续使用数据仓库应用以保留历史分析能力。

查看英文原文: Event Stream Processing: Scalable Alternative to Data Warehouses?

2008-11-09 19:321161
用户头像

发布了 225 篇内容, 共 64.2 次阅读, 收获喜欢 50 次。

关注

评论

发布
暂无评论
发现更多内容

【昇思生态城市行】南京站圆满举办, 昇腾携手伙伴见证多项重磅发布!

Geek_2d6073

江西省四家等保测评机构名单详解

行云管家

江西 等保测评 等保测评机构

异常检测算法分类总结(含常用开源数据集)

云智慧AIOps社区

人工智能 机器学习 深度学习 异常检测 算法模型

Java 八股文能不背吗?Java 面试都只是背答案吗?

钟奕礼

Java 程序员 java面试 java 编程

最佳实践|用腾讯云AI文字识别对混贴票据识别

牵着蜗牛去散步

人工智能 腾讯云 腾讯 文字识别 OCR

想要做好代码质量,如何破局?

京东科技开发者

代码质量 系统 代码优化

小令观点 | 需要留存用户的身份证照片?想清楚这三点了再做……

令牌云数字身份

身份认证 身份安全 敏感信息加密

阿里云易立:以增效促降本,容器服务全面进入智能化时代

阿里巴巴云原生

阿里云 云原生 容器服务

刷了三个月 leetcode 算法,顺利拿下百度、阿里等大厂的 offer

钟奕礼

Java 程序员 java面试 java编程

AI赋能音乐创作,人人都是音视频创作者

HarmonyOS SDK

HMS Core

百度面试被算法血虐,闭关肝完445页算法神仙笔记成功入职字节

钟奕礼

Java 程序员 java面试 java编程

隐语 PSI benchmark 白皮书

隐语SecretFlow

密码学 隐私计算 PSI 安全多方计算 隐语

直播预告lApache Hudi 中文社区技术交流会第六弹

StarRocks

数据库

云服务器买谁家的好?为什么?理由是什么?

行云管家

云计算 服务器 云服务器

中心化危机下,NFT 去中心化协议能否破局?

NFT Research

区块链 去中心化 NFT

小令观点 | 是什么让马斯克也受骗了?

令牌云数字身份

数字身份

上班干,下班学!这份 Java 面试八股文涵盖 20 多个技术点

钟奕礼

Java 程序员 java面试 java编程

从零开始学习Java系列之你为什么要学Java?

千锋IT教育

携手!Kyligence 支持 Amazon EMR Serverless,赋能云上企业降本增效

Kyligence

数据分析 OLAP

SCADA系统架构、类型和应用

2D3D前端可视化开发

物联网 组态软件 web组态 组态编辑器 SCADA

MySQL的存储引擎及常用数据类型详解

C++后台开发

MySQL 数据库 中间件 后端开发 C++开发

自动驾驶的「数据引擎」,该如何“降本”、“增效”和“精准化”?

澳鹏Appen

人工智能 自动驾驶 无人驾驶 智能驾驶 数据标注

深入掌握 Fiori Elements 工作原理的前提条件:理解 Smart Field

汪子熙

前端开发 web开发 Fiori SAP UI5 11月月更

业务畅行海外,如何做到安全第一

火线安全

小令观点 | 需要留存用户的身份证照片?想清楚这三点了再做……

令牌云数字身份

数字身份 身份认证 加密技术 可信

技术分享| 快对讲视频调度功能说明

anyRTC开发者

监控 快对讲 语音对讲 视频对讲 视频回传

开源大数据热力报告:StarRocks摘得数据查询与分析方向增速第一

StarRocks

数据库

PCB layout有DRC,为什么还要用CAM和DFM检查?

华秋PCB

PCB PCB设计 PCB工具

ElasticSearch 集群迁移最佳实践

冰心的小屋

elasticsearch

Linux系统保存文件命令的详细介绍

源字节1号

软件开发 前端开发 后端开发 小程序开发

为了进大厂!吃透了各大厂最新 3000+Java 面试题啃完面试肯定妥了

钟奕礼

Java 程序员 java面试 java编程

事件流处理:数据仓库的可伸缩替代品_架构_Sadek Drobi_InfoQ精选文章