11 月 20 日,Apache Cloudberry 正式发布公告宣布已进入 Apache 软件基金会孵化器项目。
2024 年 10 月 12 日,Cloudberry 数据库项目经社区投票通过,加入了 Apache 软件基金会的孵化器。随后,项目的代码库于 2024 年 11 月 5 日成功迁移至 Apache。至此,Cloudberry 正式成为 Apache 的一员,并在 Apache 的支持下开始开发,该开源项目遵循 Apache License 2.0 协议。
Apache Cloudberry 是由 Greenplum 数据库初始开发团队打造的一套开源大规模并行处理(MPP)数据库。它源自 Pivotal Greenplum 数据库的开源版本,但采用了更新的 PostgreSQL 内核,并提供更多高级企业功能。同时,Cloudberry 也被定位为“用于分析和 AI/ML 工作负载的高级开源 MPP 数据库”。
Greenplum 数据库一直广受各行各业、不同规模团队的广泛采用和普遍好评。根据 DB-Engines 网站,其被列为 Top50 热门数据库之一。然而,随着开源 Greenplum 数据库的归档及其社区的彻底关闭,原始开源 Greenplum 用户已无法免费获取任何安全或者功能更新,这无疑对其业务带来了潜在挑战。
因此,该开发团队宣称他们希望让 Cloudberry 成为原始 Greenplum 开源版本的首选开源替代方案,也希望全体开源开发者和 Greenplum 用户都能迁移至 Cloudberry 中来。
Greenplum 转为闭源,Cloudberry 拉拢原班人马
今年 5 月,在没有任何公告的情况下,知名开源大规模并行处理(MPP)数据库 Greenplum 突然“404”无法访问。Greenplum 的源码仓库(https://github.com/greenplum-db/gpdb)也被修改为“只读”状态,且原有的分支(branch)、标签(tag)、拉取请求(PR)以及问题(issue)等信息均已被清空。
回顾 Greenplum 的发展,这个数据库的所有权可谓一波三折,在开源与闭源之间反复转换,最终在 2024 年 5 月定格为闭源状态。
Greenplum 数据库的历史可以追溯到 2003 年,它最初是由 Greenplum 公司基于大规模并行处理(MPP)架构和 PostgreSQL 技术开发而成。
2010 年,Greenplum 公司被 EMC 集团收购。
2012 年,EMC 和 VMware(EMC 旗下子公司)将双方多项软件资产(包括 Greenplum 数据库)合并至一家名为 Pivotal Software 的新公司。
2015 年,Pivotal 开源了 Greenplum 核心引擎,并将其更名为 Pivotal Greenplum 数据库,成为首款开源 MPP 数据仓库。Pivotal Greenplum 数据库的开源核心被用于支撑 Apache HAWQ 和 Apache MADlib 等项目,而 Greenplum 本体则仍属于单一供应商拥有的开源项目。
2019 年,VMware 收购了 Pivotal Software。此番收购也让 Pivotal Greenplum 数据库归 VMware 所有。VMware 继续支持 Greenplum 数据库的后续开发及其开源社区,并在随后几年中发布了商业产品 VMware Tanzu Greenplum。
2023 年 11 月,博通完成了对 VMware 的收购,Greenplum 由此归博通公司所有。
2024 年 5 月,几乎所有 Greenplum 的 GitHub 代码仓库均被归档且转为只读,Slack 工作区被删除(https://greenplum.slack.com),user 和 dev 社区的电子邮件列表也陷入沉寂。所有这一切,均由博通公司在未作任何公告的情况下完成。
Greenplum 回归闭源引起了社区用户、开发人员以及生态系统合作伙伴的担忧。
首先对于现有的 Greenplum 社区用户来说,无法继续获得更新、升级和安全支持成为主要问题。用户需要自行解决技术难题,或支付高额费用购买博通的商业服务。这不仅增加了技术团队的压力,也大幅提高了运维成本。
其次可能改变当前国内数据仓库市场的竞争格局。许多基于 Greenplum 的衍生版本或云服务提供商,如果团队自身没有良好的技术储备,较大依赖上游,将在后续竞争中逐渐退出,具备真正技术实力的团队会获得更多机会并加强地位。
同时,Greenplum 拥有许多重量级的头部用户,以及较高的市场渗透率,其上下游生态系统也难以避免波动。一些开发者可能会转向其他数据仓库项目,相关服务商也会寻找新的合作伙伴。大多数 Greenplum 衍生产品都跟随 Greenplum 上游代码的变化,归档意味着引用 Greenplum 代码不那么容易了。
由于项目归单一供应商控制,Greenplum 始终缺乏允许社区参与决策流程的开放治理模式。Cloudberry 认为,Greenplum 数据库在漫长的演进过程中已经失去了创新和对主要功能加以更新的能力。必须承认,与新一代开源数据仓库和分析项目相比,Greenplum 的竞争力已经愈发有限。
Cloudberry 由初始 Greenplum 开发团队于 2022 年推出,其源代码于 2023 年开放。随着 Greenplum 突然转向闭源模式,Cloudberry 重新拉拢了最初的开源 Greenplum 开发人员和用户,以开源社区的形式塑造该项目。
演化方向:坚持 MPP,并升级 PG 内核
众所周知,Greenplum 在 OLAP 和分析工作负载方面的可扩展性远超普通的 PostgreSQL。而随着 Postgres Kernel 14.4 的引入,Cloudberry 实现了重要升级,成功从 Greenplum 的 Postgres 12 内核迁移过来。
不同之处在于,Greenplum,这一几乎被每家《财富》500 强企业广泛使用的数据库,如今已被 fork 了。这一分支为延续并进一步提升 Greenplum 二十多年的创新成果提供了新途径。理论上,由于该项目将成为 Apache 社区的一部分,它将摆脱单一实体的控制,真正发展为一个开放的开源项目。
但 Cloudberry 将坚持使用 MPP(大规模并行处理)架构,这对于大多数中小企业来说已足够。该架构通过在多个服务器或主机上分配数据和计算工作负载,来高效存储和处理大量数据。
从用户角度看,Cloudberry Database 是一个完整的关系型数据库管理系统(RDBMS),物理上包含多个 PostgreSQL 实例,为了使这些独立的 PostgreSQL 实例协同工作,Cloudberry Database 在数据存储、计算、通信和管理等各个层面进行分布式集群处理。同时也隐藏了分布式系统的复杂细节,只提供单一的逻辑数据库视图。
Cloudberry 声称该数据库不仅仅是 Greenplum 的换皮产物,还具有一系列高级功能和新增亮点,增强的安全性、端到端性能优化、支持 AI/机器学习工作负载和流式传输、Lakehouse 智能湖仓集成等。
参考链接:
https://cloudberry.apache.org/blog/cloudberry-database-enters-the-apache-incubator/
https://cloudberry.apache.org/docs/cbdb-vs-gp-features
https://mp.weixin.qq.com/s/2KTPPv0-D3Mtd77v-lY0iw
https://www.reddit.com/r/PostgreSQL/comments/1gqis0b/announcing_apache_cloudberry_sql_at_scale/
评论