写点什么

Greenplum 原班人马的“换皮”数据库加入 Apache 孵化器

  • 2024-11-25
    北京
  • 本文字数:2510 字

    阅读完需:约 8 分钟

大小:1.08M时长:06:16
Greenplum原班人马的“换皮”数据库加入Apache孵化器

11 月 20 日,Apache Cloudberry 正式发布公告宣布已进入 Apache 软件基金会孵化器项目。

 

2024 年 10 月 12 日,Cloudberry 数据库项目经社区投票通过,加入了 Apache 软件基金会的孵化器。随后,项目的代码库于 2024 年 11 月 5 日成功迁移至 Apache。至此,Cloudberry 正式成为 Apache 的一员,并在 Apache 的支持下开始开发,该开源项目遵循 Apache License 2.0 协议。

 

Apache Cloudberry 是由 Greenplum 数据库初始开发团队打造的一套开源大规模并行处理(MPP)数据库。它源自 Pivotal Greenplum 数据库的开源版本,但采用了更新的 PostgreSQL 内核,并提供更多高级企业功能。同时,Cloudberry 也被定位为“用于分析和 AI/ML 工作负载的高级开源 MPP 数据库”。

 

Greenplum 数据库一直广受各行各业、不同规模团队的广泛采用和普遍好评。根据 DB-Engines 网站,其被列为 Top50 热门数据库之一。然而,随着开源 Greenplum 数据库的归档及其社区的彻底关闭,原始开源 Greenplum 用户已无法免费获取任何安全或者功能更新,这无疑对其业务带来了潜在挑战。

 

因此,该开发团队宣称他们希望让 Cloudberry 成为原始 Greenplum 开源版本的首选开源替代方案,也希望全体开源开发者和 Greenplum 用户都能迁移至 Cloudberry 中来。

 

Greenplum 转为闭源,Cloudberry 拉拢原班人马

 

今年 5 月,在没有任何公告的情况下,知名开源大规模并行处理(MPP)数据库 Greenplum 突然“404”无法访问。Greenplum 的源码仓库(https://github.com/greenplum-db/gpdb)也被修改为“只读”状态,且原有的分支(branch)、标签(tag)、拉取请求(PR)以及问题(issue)等信息均已被清空。

 

回顾 Greenplum 的发展,这个数据库的所有权可谓一波三折,在开源与闭源之间反复转换,最终在 2024 年 5 月定格为闭源状态。

 

Greenplum 数据库的历史可以追溯到 2003 年,它最初是由 Greenplum 公司基于大规模并行处理(MPP)架构和 PostgreSQL 技术开发而成。

 

2010 年,Greenplum 公司被 EMC 集团收购。

 

2012 年,EMC 和 VMware(EMC 旗下子公司)将双方多项软件资产(包括 Greenplum 数据库)合并至一家名为 Pivotal Software 的新公司。

 

2015 年,Pivotal 开源了 Greenplum 核心引擎,并将其更名为 Pivotal Greenplum 数据库,成为首款开源 MPP 数据仓库。Pivotal Greenplum 数据库的开源核心被用于支撑 Apache HAWQ 和 Apache MADlib 等项目,而 Greenplum 本体则仍属于单一供应商拥有的开源项目。

 

2019 年,VMware 收购了 Pivotal Software。此番收购也让 Pivotal Greenplum 数据库归 VMware 所有。VMware 继续支持 Greenplum 数据库的后续开发及其开源社区,并在随后几年中发布了商业产品 VMware Tanzu Greenplum。

 

2023 年 11 月,博通完成了对 VMware 的收购,Greenplum 由此归博通公司所有。

 

2024 年 5 月,几乎所有 Greenplum 的 GitHub 代码仓库均被归档且转为只读,Slack 工作区被删除(https://greenplum.slack.com),user 和 dev 社区的电子邮件列表也陷入沉寂。所有这一切,均由博通公司在未作任何公告的情况下完成。

 

Greenplum 回归闭源引起了社区用户、开发人员以及生态系统合作伙伴的担忧。

 

首先对于现有的 Greenplum 社区用户来说,无法继续获得更新、升级和安全支持成为主要问题。用户需要自行解决技术难题,或支付高额费用购买博通的商业服务。这不仅增加了技术团队的压力,也大幅提高了运维成本。

 

其次可能改变当前国内数据仓库市场的竞争格局。许多基于 Greenplum 的衍生版本或云服务提供商,如果团队自身没有良好的技术储备,较大依赖上游,将在后续竞争中逐渐退出,具备真正技术实力的团队会获得更多机会并加强地位。

 

同时,Greenplum 拥有许多重量级的头部用户,以及较高的市场渗透率,其上下游生态系统也难以避免波动。一些开发者可能会转向其他数据仓库项目,相关服务商也会寻找新的合作伙伴。大多数 Greenplum 衍生产品都跟随 Greenplum 上游代码的变化,归档意味着引用 Greenplum 代码不那么容易了。

 

由于项目归单一供应商控制,Greenplum 始终缺乏允许社区参与决策流程的开放治理模式。Cloudberry 认为,Greenplum 数据库在漫长的演进过程中已经失去了创新和对主要功能加以更新的能力。必须承认,与新一代开源数据仓库和分析项目相比,Greenplum 的竞争力已经愈发有限。

 

Cloudberry 由初始 Greenplum 开发团队于 2022 年推出,其源代码于 2023 年开放。随着 Greenplum 突然转向闭源模式,Cloudberry 重新拉拢了最初的开源 Greenplum 开发人员和用户,以开源社区的形式塑造该项目。

 

演化方向:坚持 MPP,并升级 PG 内核

 

众所周知,Greenplum 在 OLAP 和分析工作负载方面的可扩展性远超普通的 PostgreSQL。而随着 Postgres Kernel 14.4 的引入,Cloudberry 实现了重要升级,成功从 Greenplum 的 Postgres 12 内核迁移过来。

 


不同之处在于,Greenplum,这一几乎被每家《财富》500 强企业广泛使用的数据库,如今已被 fork 了。这一分支为延续并进一步提升 Greenplum 二十多年的创新成果提供了新途径。理论上,由于该项目将成为 Apache 社区的一部分,它将摆脱单一实体的控制,真正发展为一个开放的开源项目。

 

但 Cloudberry 将坚持使用 MPP(大规模并行处理)架构,这对于大多数中小企业来说已足够。该架构通过在多个服务器或主机上分配数据和计算工作负载,来高效存储和处理大量数据。

 

从用户角度看,Cloudberry Database 是一个完整的关系型数据库管理系统(RDBMS),物理上包含多个 PostgreSQL 实例,为了使这些独立的 PostgreSQL 实例协同工作,Cloudberry Database 在数据存储、计算、通信和管理等各个层面进行分布式集群处理。同时也隐藏了分布式系统的复杂细节,只提供单一的逻辑数据库视图。

 


Cloudberry 声称该数据库不仅仅是 Greenplum 的换皮产物,还具有一系列高级功能和新增亮点,增强的安全性、端到端性能优化、支持 AI/机器学习工作负载和流式传输、Lakehouse 智能湖仓集成等。

 



参考链接:

https://cloudberry.apache.org/blog/cloudberry-database-enters-the-apache-incubator/

https://cloudberry.apache.org/docs/cbdb-vs-gp-features

https://mp.weixin.qq.com/s/2KTPPv0-D3Mtd77v-lY0iw

https://www.reddit.com/r/PostgreSQL/comments/1gqis0b/announcing_apache_cloudberry_sql_at_scale/

 

2024-11-25 14:285554

评论

发布
暂无评论
发现更多内容

美国站群服务器和香港站群服务器,哪一个更适合你的在线业务?

一只扑棱蛾子

站群服务器

支持国密浏览器的堡垒机叫什么?联系电话多少?

行云管家

网络安全 堡垒机 国密 国密浏览器 国密算法

数据库顶会 VLDB 2023 论文解读 - Krypton: 字节跳动实时服务分析 SQL 引擎设计

字节跳动云原生计算

sql 大数据 云原生

HTTP代理IP在什么情况下会请求超时?

巨量HTTP

代理IP http代理

灵魂三问之稳定性摸排

阿里技术

方法论 稳定性 底盘

实时数仓混沌演练实践

得物技术

实时数仓 混沌演练 业务混沌 数仓稳定性

平台运营,让数智底座更安全更稳定更高效

用友BIP

数智底座 2023全球商业创新大会

Appilot发布:打造面向DevOps场景的开源AI助手

SEAL安全

AI DevOps 企业号9月PK榜 Appilot

AI 编码助手 Codewhisperer 安装步骤和使用初体验

亚马逊云科技 (Amazon Web Services)

Java Python 人工智能 机器学习

ARBT阿尔比特代币合约质押挖矿系统开发

l8l259l3365

创新传媒行业的未来发展

百度开发者中心

#人工智能 生成式AI 千帆大模型平台

好物周刊#1:提示工程师养成指南

村雨遥

软件 网站 项目 插件 资料

不断进化的e签宝,电子签普惠的新答案

ToB行业头条

苹果电脑效率提升:Alfred 5 for Mac直装版 附Alfred5汉化包 支持M1

南屿

Alfred 5 Mac Alfred 5破解版 Mac效率办公软件

智能客服的新方向

百度开发者中心

智能客服 #人工智能 千帆大模型平台

DHorse v1.4.0 发布,基于 k8s 的发布平台

tiandizhiguai

DevOps k8s kubernetes 运维

行云管家云管平台四大价值看这里!

行云管家

企业上云 云管平台 云资源 云管理

保持预测一致性,推动企业实现未来价值

智达方通

数据孤岛 全面预算管理系统 预测分析

PopClip for Mac(剪切板复制粘贴工具) v2023.9中文激活版

mac

苹果mac Windows软件 PopClip 文本操作工具

专家观点∣基于数据驱动的设备预测性维护

用友BIP

数据驱动 设备维护

即时通讯技术文集(第21期):后端架构设计基础入门系列 [共15篇]

JackJiang

网络编程 即时通讯 即时通讯IM

中文3D摄影棚布光软件 Set A Light 3D Studio 最新激活

mac大玩家j

Mac软件 灯光模拟软件

22H2 中国边缘公有云服务市场 Top2,百度智能云构建让智算无处不在的分布式云

Baidu AICLOUD

边缘计算 分布式云 大模型

覆盖8大领域,云投集团财务数智化管理平台全面上线!

用友BIP

财务数智化

Studio One 6 Pro永久许可证 附Studio One for Mac安装教程

南屿

Studio One 许可证 音乐制作软件 Studio One 6下载 Studio One 6破解

末流院校24届秋招逆袭之路!

王磊

Java java面试

鞍钢集团∣共和国钢铁工业长子的财务转型之路

用友BIP

财务数智化

简单好用的防火墙 Radio Silence for mac激活最新

胖墩儿不胖y

Mac 软件 防火墙软件 阻止网络连接软件

引领智能对话革命的创新网络工程技术

百度开发者中心

智能对话 #人工智能 ChatGPT

Greenplum原班人马的“换皮”数据库加入Apache孵化器_数据库_Tina_InfoQ精选文章