AI 年度盘点与2025发展趋势展望,50+案例解析亮相AICon 了解详情
写点什么

暗战升级,Databricks 收购 Tabular,Iceberg 社区陷入动荡

  • 2024-06-06
    北京
  • 本文字数:2726 字

    阅读完需:约 9 分钟

暗战升级,Databricks收购Tabular,Iceberg社区陷入动荡

事件


Databricks 收购了 Tabular。字少事大。


紧接着,最近刚刚发生的事件,Iceberg 的 Contributor Kanou Natsukawa 呼吁 Icerberg 的 PMCChair 辞职,核心他的担忧是存在利益冲突。



Kanou 意有所指,担心的是什么


为什么 Kanou 有这个担心?他其实真正担心的是,鉴于 Tabular 是 Iceberg“背后”的商业公司,有多位 Iceberg 的 PMC 在 Tabular 任职。那么这次收购之后,很有可能 Databricks 会完全能够控制 Tabular 和 Iceberg,及其标准。“标准”——真正的担忧是 Databricks 控制 Iceberg 标准的风险。


一箭双雕:Databricks 的战略意图


Databricks 此举的战略意图不难看出。一方面,他们希望发展自家的 DeltaLake,因为 DeltaLake 与 Iceberg 是直接竞争关系;另一方面,这也是在打击竞争对手 Snowflake。Snowflake 全面拥抱开放的湖仓标准,而 Iceberg 已经成为业界事实标准之一。通过收购 Tabular,Databricks 可以间接控制 Iceberg,从而在数据湖格式标准的竞争中占据优势地位。


历史总是相似的


当年 Oracle 收购 Mysql 是这个故事的翻版,Kanou 担心的正是这样的事情再次发生在 Iceberg 上。


MySQL 原开发者为瑞典的 MySQLAB 公司,该公司于 2008 年被昇阳微系统(Sun Microsystems)收购。2009 年,甲骨文公司(Oracle)收购昇阳微系统公司,MySQL 成为 Oracle 旗下产品。

(引文:https://zh.wikipedia.org/zh-hans/MySQL


这一事件在当时引起了开源社区的广泛关注和争议。时至今日,MySQL 仍是活跃的开源项目,但在 Oracle 的影响下,它的发展方向和节奏无疑发生了变化。Oracle 对 MySQL 的控制,也引发了开源社区对大公司介入开源项目的广泛讨论和反思。


Kanou 对 Databricks 收购 Tabular 的担忧,与当年社区对 Oracle 收购 MySQL 的顾虑如出一辙。历史似乎在重演,只是这一次,舞台从开源数据库转移到了开源数据湖存储标准。


Databricks 的意图可以说是明牌了。


在之前关于 Redshift 的采访中,Databricks 的 VP 明确表达了对数据存储格式的“野心”



(引文:https://inpractise.com/articles/databricks-melting-the-snow


能够看到两强相争之时,都看中了数据湖结构化存储标准这个兵家必争之地。为什么会这样?


因为传统的数据库引擎和未来 AI 模型多模态等引擎,去处理海量的额数据是一个多样性的处理过程。一方面数据是海量的,很难做到将海量的数据“喂”给不同的引擎,这样耗费的“数据搬运”或 ETL 成本太高;另一方面处理数据的引擎越来越多样。所以,必然会需要一个革命性地架构的改变。那么,今天 Snowflake 和 Databricks 的的数据的开放性格式标准或将是决定未来各方能走多远的一个关键技术。如果 Databricks 真的控制了 Iceberg,那么也就意味着很有可能 Icerberg 的发展会减缓,进而影响到支持 Iceberg 的 Snowflake。


云器科技在此前的发布会中详细解释了 AI 时代数据架构的发展趋势:


AI 时代的计算与存储将是 M 对 N 的关系架构,区别于一直以来数据库的计算和存储绑定的 1 对 1 关系



云器科技此前的分享来看,湖仓一体会成为主流架构,而 Iceberg 已成为事实标准。


下一代的数据架构将会是:

  • 一套数据,统一的元数据中心,具备*一致*性(其他层次上的数据用 Cache 抽象)

  • 开放性,数据格式公开可访问

  • 可插拔性,上层引擎/应用可以灵活的插在 Lakehouse 上(这对于新兴的 AI 引擎/应用至关重要)


关涛(云器科技联合创始人及 CTO)此前分享到,“开放的存储和元数据支持多引擎协作是 Data+AI 平台的演进方向。”


据此,不难理解 Snowflake 和 Databricks 会为此不惜重金布局“对线”。


Snowflake 和 Databricks 的暗战


之前 RyanBlue,ApacheIcebergPMCChair 在 IcebergSummit2024 中谈及开放的存储格式正在掀起一场“革命”,并暗戳戳地阴阳了 DeltaLake。意思是本来没想把 DeltaLake 算进来,但想了想还是算上吧。满脸的勉强。


we had this surprise realization a couple years ago when Snowflake and Redshift and other commercial data warehouses started adding support for Apache Iceberg. What's going on there?Why are they doing that?In order to answer that question...I think the central trend is that projects like Apache Iceberg, I would actually include Deltain this as well, have unlocked shared data warehouse storage.

(引自:“Iceberg Summit 2024 Keynote:The Quite Revolution”)


这次收购事件,可以看出 Databricks 毫不掩饰的讲出想釜底抽薪解决问题,为自己的 DeltaLake 开路


(图:Databricks VP 的演讲)


这场竞争双方是不惜代价全力以赴的。在 DatabricksVP 之前的一段访谈,谈到 Iceberg 和 Delta 的直接竞争,是一场非常决定性的战争,用了“WAR”这个词。


并非技术之争,而是“开放”与“控制”之争


Snowflake 在 2024/6/3 的发布会 Keynote 分享,数据是 AI 的基础设施......以前是数据送给引擎去处理,未来 AI 时代是多种引擎,包括 AI 引擎,计算引擎要趋向数据。Data Centralization 的理念是方向。


"The AI Data Cloud is lighting up every corner of the enterprise."

"Data... is the foundation of AI"

--Sridhar Ramaswamy, Snowflake CEO


(图:Snowflake Summit 2024 Keynote)


Snowflake 的产品经理 James Malone 在今天对 Tabular 的收购事件也发布了他的看法,他认为 Databricks 收购 Tabular 彰显了 Databricks 的“独占”与“控制”思维:

  • 独占而非共创

  • 谋求“全面控制”而非支持开放的技术社区



“开放标准本应由社区共同创建和维护,就像 Snowflake 新发布的 Polaris 那样,旨在促进生态共存。而 Databricks 的做法却恰恰相反,他们试图通过收购的方式来控制 Iceberg 标准,这种‘不能打败就购’的心态,与开源精神背道而驰。”



我们保持关注,希望 Iceberg 和技术社区能挺住


资本的力量,如果用在助力技术研发和应用落地,可以推动行业进步,造福社会,是“TechforGood”;而如果资本用于收购打压竞争对手时,就成了一种“资本之恶”。


Iceberg 能否在 Databricks 的控制下继续保持开放、中立,现在还是一个未知数。业界对此表示担忧,但同时也寄望于 Iceberg 社区能够坚守开源初心,维护项目的独立性。Iceberg 的命运,或许将成为资本与开源技术博弈的一个缩影。


(图:Iceberg 技术社区的讨论)


下周,Databricks 将召开年度发布会,而 Snowflake 的发布会也正在如火如荼地进行中。虽然两家巨头今年没有像去年那样选在同一时间异地开幕,但这丝毫不会减弱他们在数据领域的竞争激烈程度。相反,随着 Databricks 收购 Tabular 事件的发酵,两个海外数据平台巨头之争只会愈演愈烈。


人工智能正处在聚光灯的中心,各路科技公司都在追逐 AI 的绚丽光环。但在光环的背后,一场数据格式之争——关乎未来十年数据格式标准之争在暗处正在上演。


作者:苏郡城,云器科技运营总监,云计算大数据领域专家。曾主导阿里云国际业务数据体系建设,十余年一线数据化运营实战,助力企业实现数字化增长,热衷于技术社区分享。

2024-06-06 11:4222276
用户头像
鲁冬雪 GMI Cloud China Marketing Manager

发布了 362 篇内容, 共 264.1 次阅读, 收获喜欢 294 次。

关注

评论

发布
暂无评论

极客时间架构师训练营第一周学习总结

爱码士

课程总结

第五周学习代码技术选型总结

三板斧

极客大学架构师训练营

一周信创舆情观察(10.12~10.18)

统小信uos

不会java的人能不能读《Head First设计模式》?

Nydia

作为一名Java程序员,技术栈的广度深度都不够还想要高薪?请先把这些技术掌握再说。

Java架构之路

Java 程序员 架构 面试 编程语言

大数据上手实战!训练营“9营齐开”第二季限时免费报名啦

Apache Flink

大数据

架构师训练营培训第一周总结

lakers

极客大学架构师训练营

华为云如何赋能无人车飞驰?从这群AI热血少年谈起

华为云开发者联盟

人工智能 无人驾驶

阿里18道常见的MySQL面试题,含解析

Java架构师迁哥

MyBatis-技术专题-动态SQL

洛神灬殇

1024!奈学教育致敬程序员3+2战略发布会重磅来袭

古月木易

程序员 奈学教育

MyBatis-技术专题-拦截器介绍

洛神灬殇

LeetCode题解:50. Pow(x, n),暴力法,JavaScript,详细注释

Lee Chen

算法 大前端 LeetCode

Spring 5.2.7和SpringBoot 2.3.3中文翻译发布啦!!!

青年IT男

spring springboot

项目吐槽之需求分析一

Geek_XOXO

项目管理 pmp

我从高级开发者身上学到的19条编码原则

Java架构师迁哥

想自己写框架?不会写Java注解可不行

Java架构师迁哥

架构师训练营 1 期 - 第五周 - 技术选型

三板斧

极客大学架构师训练营

【API进阶之路】研发需求突增3倍,测试团队集体闹离职

华为云开发者联盟

软件开发 开发 开发测试

普通人如何站在时代风口学好AI?这是我看过最好的答案

华为云开发者联盟

AI 算法

2020,国产数据库崭露峥嵘的发轫之年

墨天轮

数据库 阿里云 华为云 SQL优化 热门活动

程序员喜欢的 5 款最佳最牛代码比较工具

程序员生活志

编程 工具

项目吐槽之需求分析二

Geek_XOXO

项目管理 pmp 项目实战

为什么说容器的崛起预示着云原生时代到来?

华为云开发者联盟

容器 云原生

网易:Flink + Iceberg 数据湖探索与实践

Apache Flink

flink 数据湖

了解HashMap数据结构,超详细!

程序员的时光

面试 hashmap HashMap底层原理

架构师训练营第一周作业

爱码士

架构设计

Java高并发编程的一本百科全书《Java高并发编程详解:多线程与架构设计》,把Java语言中最为晦涩的知识点都详解出来了!

Java架构之路

Java 程序员 架构 并发编程 编程语言

技术体系的构成

凌晞

技术 技术管理 研发体系

两个程序员老友的会面

Philips

敏捷开发

1分钟带你入门 React SCU、memo、pureCom

Leo

react.js 大前端 React

暗战升级,Databricks收购Tabular,Iceberg社区陷入动荡_大数据_苏郡城_InfoQ精选文章