写点什么

Pulsar 如何为批和流处理提供高效统一的数据存储

  • 2019-08-04
  • 本文字数:855 字

    阅读完需:约 3 分钟

Pulsar 如何为批和流处理提供高效统一的数据存储

在 QCon 北京 2019 大会上,翟佳讲师做了《Pulsar 如何为批和流处理提供高效统一的数据存储》主题演讲,主要内容如下。


演讲简介


大数据的处理方式主要分为两类,一类是基于有边界的历史静态数据的批处理;另一类是基于无边界的 event 和流数据的实时处理。


由于具体业务和大数据技术发展历程的原因,在实际应用中,批处理和流处理的数据和技术还是被分隔成两个不同的部分。这其中的一个原因是两种数据类型存储方式的不同:近实时的流、事件数据通常使用消息队列、日志存储系统进行存储;而批处理所需要的静态数据,通常使用文件系统、对象存储进行存储。这就意味着,数据科学家还是需要编写两套不同的计算逻辑来访问存储在不同存储系统中的数据。


Apache Pulsar 是 Yahoo 开源的下一代分布式消息系统,在 2018 年 9 月从 Apache 软件基金会毕业成为顶级项目。Pulsar 特有的分层分片的架构,在保证大数据消息流系统的性能和吞吐量的同时,也提供了高可用性、高可扩展性和易维护性。Pulsar 的分片架构将消息流数据的存储粒度从分区拉低到了分片,并且 Pulsar 提供了层级化存储功能,可以支持近乎无限大小的流存储。另一方面 Pulsar 也可以基于分片提供对有边界的静态数据的存储。这使得 Pulsar 可以完美地匹配和适配大数据计算框架中的批流一体的存储需求。

主要内容

  1. 什么是 Pulsar;

  2. 介绍 Pulsar 的分层和分片架构,以及为什么 Pulsar 的这种架构可以更好地适配批流一体计算框架;

  3. 介绍 Pulsar 怎么跟流处理中的 Spark 和 Flink 以及批处理中的 Presto 和 Hive 结合,提供批流一体的高效的数据存储。

听众受益

  1. 理解批流一体的处理优势;

  2. 理解批处理和流处理对存储的不同需求;

  3. 深入理解 Apache Pulsar 的基础架构;

  4. 深入理解 Apache Pulsar 能匹配批流一体需求的原因。


讲师介绍


翟佳


StreamNative 核心工程师


翟佳是 Apache Pulsar 和 Apache BookKeeper 两个开源项目的 PMC 成员和 Committer。是 StreamNative 的核心工程师,曾任职于 EMC,是北京 EMC 实时处理平台的技术负责人。












完整演讲 PPT 下载链接


https://qcon.infoq.cn/2019/beijing/schedule


2019-08-04 08:001551

评论

发布
暂无评论
发现更多内容

华为云Astro低代码平台关键能力技术浅析

华为云PaaS服务小智

云计算 软件开发 低代码 华为云

你需要知道的Symbols

不在线第一只蜗牛

前端 symbol

企业是如何做到持续规划的?

智达方通

全面预算管理 持续规划 年度计划流程

新兴技术的影响与展望:生成式AI及更多思考|社区征文

小诚信驿站

年中技术盘点

苹果APP安装包ipa如何安装在手机上

ios

Hybrid Embedding:蚂蚁集团万亿参数稀疏 CTR 模型解决方案

AI Infra

AI 开发者 海量存储 AI大模型 降本增效

低代码在边缘计算工业软件中的应用

力软低代码开发平台

软件测试丨Docker环境安装配置(Mac、Windows、Ubuntu)

测试人

Docker ubuntu 软件测试 Mac windows

基于Go语言的滴滴DevOps重塑之路

滴滴技术

DevOps 滴滴技术 #go

小度全屋智能携大模型应用惊艳亮相中国建博会,智慧体验演绎未来家居新标准

新消费日报

AIGC 对程序员的影响 | 社区征文

sidiot

AI AIGC 年中技术盘点

极光笔记 | 解锁Web推送的潜力:提升网站收入

极光JIGUANG

网站 营销 消息推送 推送

云原生技术分享篇丨浅析Istio流量管理

inBuilder低代码平台

云原生

华为云命令行工具服务KooCLI助力一键管理云资源

华为云PaaS服务小智

云计算 软件开发 华为云

2023世界人工智能大会,和鲸科技入选中国信通院《2023大模型和AIGC产业图谱》

ModelWhale

人工智能 数据科学 大模型 AIGC 世界人工智能大会

和鲸数据科学专家平台正式成立,凝聚专家资源推进产业数字化升级

ModelWhale

人工智能 数据科学 专家平台 专家资源

Docker学习路线3:安装设置

小万哥

Docker 容器 后端 开发 开发程序员

倒计时 2 天|请收好 Kyligence 用户大会参会指南

Kyligence

数据分析 指标平台

图加速数据湖分析-GeaFlow和Hudi集成

TuGraphAnalytics

数据湖 图计算 Hudi 数据湖分析 GeaFlow

生成式AI的发展、应用及影响 | 社区征文

Dec

年中技术盘点

晴数智慧张晴晴博士当选开放群岛开源社区「首席数据科学家」

极客天地

什么是HTML5?HTML5的含义、元素和好处

互联网工科生

html html5

UINO优锘科技受邀在2023全球数字经济大会数字孪生赋能城市数字化转型论坛发表演讲

ThingJS数字孪生引擎

数字化转型 智慧城市 数字孪生 #web3D ThingJS

没收入是表象,UMU CEO李东朔的出海经验:第一年破100国家

B Impact

TDengine 3.0 性能如何?教你一键复现 IoT 场景 TSBS 测试结果

爱倒腾的程序员

如果小程序越来越多,是不是会直接代替App?

Onegun

小程序 小程序容器

入选中国数据智能领域 IDC 创新者,柏睿数据创新实力再获肯定

新消费日报

初识滴滴交易策略之一:交易市场

滴滴技术

算法 滴滴技术

Pulsar 如何为批和流处理提供高效统一的数据存储_数据库_翟佳_InfoQ精选文章