写点什么

Pivotal 开源基于 PostgreSQL 的数据库 Greenplum

2015 年 11 月 03 日

近日,Pivotal宣布开源大规模并行处理(MPP)数据库Greenplum,其架构是针对大型分析型数据仓库和商业智能工作负载专门设计的。借助MPP 这种高性能的系统架构,Greenplum 可以将TB 级的数据仓库负载分解,并使用所有的系统资源并行处理单个查询。

Greenplum 数据库基于 PostgreSQL 开源技术。本质上讲,它是多个 PostgreSQL 实例一起充当一个数据库管理系统。Greenplum 以 PostgreSQL 8.2.15 为基础构建,在 SQL 支持、特性、配置选项和终端用户功能方面非常像 PostgreSQL,用户操作 Greenplum 就跟平常操作 PostgreSQL 一样。不过,为了支持 Greenplum 数据库的并发结构,PostgreSQL 的内部构件经过了修补。例如,为了在所有并行的 PostgreSQL 数据实例上并发执行查询,系统目录、优化器、查询执行器以及事务管理器组件都经过了修改和增强。此外,Greenplum 还引入了针对商业智能工作负载优化 PostgreSQL 的特性。例如,增加了并行数据加载、资源管理、查询优化、存储增强。这些功能是标准 PostgreSQL 所不具备的。

Greenplum 数据库的架构如下:

Greenplum master 是 Greenplum 数据库系统的入口,接受客户端连接及提交的 SQL 语句,将工作负载分发给其它数据库实例(segment 实例),由它们存储和处理数据。Greenplum interconnect 负责不同 PostgreSQL 实例之间的通信。Greenplum segment 是独立的 PostgreSQL 数据库,每个 segment 存储一部分数据。大部分查询处理都由 segment 完成。

根据 Pivotal 的开源公告,他们希望 Greenplum 会成为一个重大的里程碑,永久改变数据仓库这个行业。Greenplum 数据库与其它开源数据处理系统(如 Apache Hadoop、MySQL 甚或 PostgreSQL)的差别在架构和功能上都有体现。借助 MPP,Greenplum 在大型数据集上执行复杂 SQL 分析的速度比他们测试过的任何一个方案都要快。而借助下一代查询优化技术,Greenplum 带来了其它开源方案中没有的数据管理质量特性、升级和扩展能力。他们相信,这样一款经过证明的、广泛采用的数据仓库开源将会在整个业界引发巨大的连锁反应。最重要的是,这降低了大规模实时数据分析的门槛,更多的公司可以参与到大数据所带来的挑战中来。

另据 InfoWorld 报道,数据库行业分析师 Curt Monash将Greenplum 视为分析型RDBMS 的真正竞争者。而且,相比现有的产品(如 Teradata HP Vertica IBM Netezza Oracle Exadata ),其引入成本更低。Greenplum 作为一项服务似乎是个再简单不过的选择。它有一个为人熟知的名字和广泛的用户基础。MySQL 或 PostgreSQL 也通过类似的技术提供云端服务。但是,Greenplum 真要展现出其优势,需要做好两个方面的工作:一是从现有的 Greenplum 部署移植要简单;二是有一个可行的发展路线,要么可以通过其它云托管产品富集数据,要么集成新兴的分析技术,如 Spark。

Hacker News 上,Pivotal Labs 成员 jacques_chester 回答了多名网友的问题。网友 tlrobinson 提出:

为什么 Greenplum 以 PostgreSQL 8.2 为基础,而不是更新的版本?

对此,jacques_chester 解释说,“那是因为 Greenplum 最初从该版本派生。”网友 djokkataja 的问题也是围绕这一点:

现在有计划吗?Greenplum 最终是否会与现行的 PostgreSQL 开发有同等的特性,或者 Greenplum 主要还是遵循自己的发展路线?

jacques_chester 并没有明确回答这个问题,只是说,这取决于许多因素。同时,他还指出:

Greenplum 采用 PostgreSQL Wire Protocol 。所有可以同 PostgreSQL 交互的工具都可以顺畅地同 Greenplum 交互。

还有网友担心 Greenplum 的单 master 会成为写入瓶颈,jacques_chester 答复说,这是 gpfdist 要解决的问题,只要正确使用,就可以实现批量并行加载,而且 master 不会成为瓶颈。

网友们还讨论了 Greenplum 与 ElasticSearch 的差别,感兴趣的读者可以进一步阅读。


感谢郭蕾对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ @丁晓昀),微信(微信号: InfoQChina )关注我们,并与我们的编辑和其他读者朋友交流(欢迎加入 InfoQ 读者交流群)。

2015 年 11 月 03 日 18:008957
用户头像

发布了 1008 篇内容, 共 313.6 次阅读, 收获喜欢 282 次。

关注

评论

发布
暂无评论
发现更多内容

安卓rxjava使用,现在做Android开发有前途吗?附面试题答案

欢喜学安卓

android 程序员 面试 移动开发

上次挂在了京东(Java岗)二面不服气,这次终于拿下offer,皇天不负有心人了也是!

钟奕礼

Java 编程 程序员 架构 面试

币安智能链智能合约Dapp系统开发技术

薇電13242772558

智能合约

区块链商品溯源平台--全流程捍卫食品安全

13530558032

区块链结合农业产业,平台全程溯源

电微13828808271

什么是自然语言处理(NLP)?

澳鹏Appen

人工智能 自然语言处理 聊天机器人 nlp 自然语言

app启动速度优化,分享一点面试小经验,最全的BAT大厂面试题整理

欢喜学安卓

android 程序员 面试 移动开发

智慧党建管理系统开发方案,组织部干部人事管理平台建设

WX13823153201

解读金融高频交易不出错的金手指:分布式事务管理

华为云开发者社区

微服务架构 事务 华为云 数据一致性 分布式事务管理

GopherChina 2021 定了,干货满满的来了

GoCN技术社区

go GopherChina

如何使用iMazing将iPhone的数据迁移到iPad

懒得勤快

iphone ipad 苹果 数据迁移 数据备份

世界级运维专家巨作:793页Linux实战手记,GitHub点击量已超千万

周老师

Java 编程 程序员 架构 面试

Java 面试题目最全集合1000+ 大放送,能答对70%就去BATJTMD

钟奕礼

Java 编程 程序员 架构 面试

Kotlin @inline内联函数

季浩田 🍙

kotlin inline

源中瑞区块链Baas平台--助力区块链应用落地

13530558032

头一次见,阿里大牛把计算机网络协议讲得这么有趣,已火爆Github

周老师

Java 编程 程序员 架构 面试

anyRTC 实时音视频打造安全合规壁垒

anyRTC开发者

网络安全 WebRTC RTC

为用户重命名

在即

四月日更

工业机器视觉系统相机如何选型?

不脱发的程序猿

工业物联网 四月日更 LabVIEW 工业视觉 工业机器视觉

1000道最新整理的Java 技术考题及解答,抢先直通TMDBATJW拿高薪

钟奕礼

Java 编程 程序员 架构 面试

HECO火币链智能合约Dapp系统开发方案

薇電13O25249123

智能合约 dapp

项目管理之相关方管理

Geek_XOXO

项目管理 复盘 相关方管理

疫情期间接触一分快三输了很多钱怎么办?有什么回本方案

陆青

输了

MemVerge CEO表示基于大内存的基础架构将取代性能层级存储

Steven Xu

内存 存储 基础框架 傲腾

java中三种内存溢出错误的处理方法

Sakura

四月日更

MySQL数据库函数、DCL详解(及备份恢复操作)

若尘

MySQL 数据库 备份 DCL

牛客网转发超50万次的Java面试指南!已成功帮我在金三斩获6个Offer

神奇小汤圆

Java 编程 程序员 架构 面试

区块链“数据上链”管理系统

电微13828808271

2021金三银四面试必备?体系化带你学习:分布式进阶技术手册

比伯

Java 架构 程序人生 编程语言 技术宅

架构师训练营 模块2作业

eoeoeo

架构实战营

「 最具技术影响力企业号 TOP10 」—— InfoQ 写作平台【 1 周年盛典 】

InfoQ写作平台官方

1 周年盛典

演讲经验交流会|ArchSummit 上海站

演讲经验交流会|ArchSummit 上海站

Pivotal开源基于PostgreSQL的数据库Greenplum-InfoQ