当前的大数据处理系统无论是何种架构都面临一个共同的问题,即:“计算是原生的流计算,而存储却不是原生的流存储” 。
针对这一问题,DellEMC开发并开源了流式数据存储引擎Pravega(https://github.com/pravega/pravega),为连续、无界数据提供新的存储抽象:流。经过Pravega抽象后的流式数据具有持久性、伸缩性、只追加等等一系列特性。
本系列文章将循序渐进、由浅入深地介绍Pravega的各个核心部件和工作机制,为读者逐层揭开流式存储引擎的神秘面纱。无论你是一名只关注产品特性的终端用户,还是热衷于探索分布式流式系统背后秘密的开发者,相信都能从本系列文章得到启发。
本文是分布式流存储 Pravega 专栏第一篇文章
Pravega 与 Kafka 有何不同?
本文主要介绍 Pravega 的云原生特性,核心组件,安装部署实践以及 Reader/Writer 的基本应用实践。
如何灵活应对流量峰谷?
高并发 (>= 10000 clients) 场景下可以替代 ZooKeeper 和 etcd
StateSynchronizer 组件应用实例
Pravega 能与 Flink 碰撞出怎样的火花?
如何能够更加精确地进行基于事件时间窗口的计算?Watermark 的概念应运而生。
在传统数据结构上使用创新的方法使得段存储可以为每个段有效管理 10 亿数量级的段属性。
Apache Kafka 迎来了“后浪”
Pravega 读写性能评估
如何设计一套高效廉价的大数据架构,在尽可能多保留所有原始数据内容的同时还可以支持“无缝接入”的新的分析算法。本文所要介绍的数据湖解决方案可能是解决这个难题的一种新思路。