QCon北京「鸿蒙专场」火热来袭!即刻报名,与创新同行~ 了解详情
写点什么

暗战升级,Databricks 收购 Tabular,Iceberg 社区陷入动荡

  • 2024-06-06
    北京
  • 本文字数:2726 字

    阅读完需:约 9 分钟

暗战升级,Databricks收购Tabular,Iceberg社区陷入动荡

事件


Databricks 收购了 Tabular。字少事大。


紧接着,最近刚刚发生的事件,Iceberg 的 Contributor Kanou Natsukawa 呼吁 Icerberg 的 PMCChair 辞职,核心他的担忧是存在利益冲突。



Kanou 意有所指,担心的是什么


为什么 Kanou 有这个担心?他其实真正担心的是,鉴于 Tabular 是 Iceberg“背后”的商业公司,有多位 Iceberg 的 PMC 在 Tabular 任职。那么这次收购之后,很有可能 Databricks 会完全能够控制 Tabular 和 Iceberg,及其标准。“标准”——真正的担忧是 Databricks 控制 Iceberg 标准的风险。


一箭双雕:Databricks 的战略意图


Databricks 此举的战略意图不难看出。一方面,他们希望发展自家的 DeltaLake,因为 DeltaLake 与 Iceberg 是直接竞争关系;另一方面,这也是在打击竞争对手 Snowflake。Snowflake 全面拥抱开放的湖仓标准,而 Iceberg 已经成为业界事实标准之一。通过收购 Tabular,Databricks 可以间接控制 Iceberg,从而在数据湖格式标准的竞争中占据优势地位。


历史总是相似的


当年 Oracle 收购 Mysql 是这个故事的翻版,Kanou 担心的正是这样的事情再次发生在 Iceberg 上。


MySQL 原开发者为瑞典的 MySQLAB 公司,该公司于 2008 年被昇阳微系统(Sun Microsystems)收购。2009 年,甲骨文公司(Oracle)收购昇阳微系统公司,MySQL 成为 Oracle 旗下产品。

(引文:https://zh.wikipedia.org/zh-hans/MySQL


这一事件在当时引起了开源社区的广泛关注和争议。时至今日,MySQL 仍是活跃的开源项目,但在 Oracle 的影响下,它的发展方向和节奏无疑发生了变化。Oracle 对 MySQL 的控制,也引发了开源社区对大公司介入开源项目的广泛讨论和反思。


Kanou 对 Databricks 收购 Tabular 的担忧,与当年社区对 Oracle 收购 MySQL 的顾虑如出一辙。历史似乎在重演,只是这一次,舞台从开源数据库转移到了开源数据湖存储标准。


Databricks 的意图可以说是明牌了。


在之前关于 Redshift 的采访中,Databricks 的 VP 明确表达了对数据存储格式的“野心”



(引文:https://inpractise.com/articles/databricks-melting-the-snow


能够看到两强相争之时,都看中了数据湖结构化存储标准这个兵家必争之地。为什么会这样?


因为传统的数据库引擎和未来 AI 模型多模态等引擎,去处理海量的额数据是一个多样性的处理过程。一方面数据是海量的,很难做到将海量的数据“喂”给不同的引擎,这样耗费的“数据搬运”或 ETL 成本太高;另一方面处理数据的引擎越来越多样。所以,必然会需要一个革命性地架构的改变。那么,今天 Snowflake 和 Databricks 的的数据的开放性格式标准或将是决定未来各方能走多远的一个关键技术。如果 Databricks 真的控制了 Iceberg,那么也就意味着很有可能 Icerberg 的发展会减缓,进而影响到支持 Iceberg 的 Snowflake。


云器科技在此前的发布会中详细解释了 AI 时代数据架构的发展趋势:


AI 时代的计算与存储将是 M 对 N 的关系架构,区别于一直以来数据库的计算和存储绑定的 1 对 1 关系



云器科技此前的分享来看,湖仓一体会成为主流架构,而 Iceberg 已成为事实标准。


下一代的数据架构将会是:

  • 一套数据,统一的元数据中心,具备*一致*性(其他层次上的数据用 Cache 抽象)

  • 开放性,数据格式公开可访问

  • 可插拔性,上层引擎/应用可以灵活的插在 Lakehouse 上(这对于新兴的 AI 引擎/应用至关重要)


关涛(云器科技联合创始人及 CTO)此前分享到,“开放的存储和元数据支持多引擎协作是 Data+AI 平台的演进方向。”


据此,不难理解 Snowflake 和 Databricks 会为此不惜重金布局“对线”。


Snowflake 和 Databricks 的暗战


之前 RyanBlue,ApacheIcebergPMCChair 在 IcebergSummit2024 中谈及开放的存储格式正在掀起一场“革命”,并暗戳戳地阴阳了 DeltaLake。意思是本来没想把 DeltaLake 算进来,但想了想还是算上吧。满脸的勉强。


we had this surprise realization a couple years ago when Snowflake and Redshift and other commercial data warehouses started adding support for Apache Iceberg. What's going on there?Why are they doing that?In order to answer that question...I think the central trend is that projects like Apache Iceberg, I would actually include Deltain this as well, have unlocked shared data warehouse storage.

(引自:“Iceberg Summit 2024 Keynote:The Quite Revolution”)


这次收购事件,可以看出 Databricks 毫不掩饰的讲出想釜底抽薪解决问题,为自己的 DeltaLake 开路


(图:Databricks VP 的演讲)


这场竞争双方是不惜代价全力以赴的。在 DatabricksVP 之前的一段访谈,谈到 Iceberg 和 Delta 的直接竞争,是一场非常决定性的战争,用了“WAR”这个词。


并非技术之争,而是“开放”与“控制”之争


Snowflake 在 2024/6/3 的发布会 Keynote 分享,数据是 AI 的基础设施......以前是数据送给引擎去处理,未来 AI 时代是多种引擎,包括 AI 引擎,计算引擎要趋向数据。Data Centralization 的理念是方向。


"The AI Data Cloud is lighting up every corner of the enterprise."

"Data... is the foundation of AI"

--Sridhar Ramaswamy, Snowflake CEO


(图:Snowflake Summit 2024 Keynote)


Snowflake 的产品经理 James Malone 在今天对 Tabular 的收购事件也发布了他的看法,他认为 Databricks 收购 Tabular 彰显了 Databricks 的“独占”与“控制”思维:

  • 独占而非共创

  • 谋求“全面控制”而非支持开放的技术社区



“开放标准本应由社区共同创建和维护,就像 Snowflake 新发布的 Polaris 那样,旨在促进生态共存。而 Databricks 的做法却恰恰相反,他们试图通过收购的方式来控制 Iceberg 标准,这种‘不能打败就购’的心态,与开源精神背道而驰。”



我们保持关注,希望 Iceberg 和技术社区能挺住


资本的力量,如果用在助力技术研发和应用落地,可以推动行业进步,造福社会,是“TechforGood”;而如果资本用于收购打压竞争对手时,就成了一种“资本之恶”。


Iceberg 能否在 Databricks 的控制下继续保持开放、中立,现在还是一个未知数。业界对此表示担忧,但同时也寄望于 Iceberg 社区能够坚守开源初心,维护项目的独立性。Iceberg 的命运,或许将成为资本与开源技术博弈的一个缩影。


(图:Iceberg 技术社区的讨论)


下周,Databricks 将召开年度发布会,而 Snowflake 的发布会也正在如火如荼地进行中。虽然两家巨头今年没有像去年那样选在同一时间异地开幕,但这丝毫不会减弱他们在数据领域的竞争激烈程度。相反,随着 Databricks 收购 Tabular 事件的发酵,两个海外数据平台巨头之争只会愈演愈烈。


人工智能正处在聚光灯的中心,各路科技公司都在追逐 AI 的绚丽光环。但在光环的背后,一场数据格式之争——关乎未来十年数据格式标准之争在暗处正在上演。


作者:苏郡城,云器科技运营总监,云计算大数据领域专家。曾主导阿里云国际业务数据体系建设,十余年一线数据化运营实战,助力企业实现数字化增长,热衷于技术社区分享。

2024-06-06 11:4222439
用户头像
鲁冬雪 GMI Cloud China Marketing Manager

发布了 364 篇内容, 共 283.0 次阅读, 收获喜欢 299 次。

关注

评论

发布
暂无评论
发现更多内容

OAuth2.0授权码模式实战

码农参上

OAuth 2.0 8月日更

市场战略再升级 解析融云的生态平台+纵深发展

融云 RongCloud

史上最全的服务器选择指南,这六点你必须知道!

九河云安全

模型训练语料少?知识蒸馏解决烦恼

LigaAI

人工智能 神经网络 深度学习 模型训练 nlp

企业上云之前选择服务器类型的几点建议

九河云安全

写作 7 堂课——【5. 结构化写作】

LeifChen

写作技巧 8月日更 结构化

c++ list 详解

若尘

c++ List 8月日更

前端性能优化|什么是防抖和节流?

青云技术社区

JavaScript 大前端 防抖节流 函数防抖

从平台到生态,钉钉、飞书和企业微信的巨头之争

ToB行业头条

钉钉 企业微信 飞书

卷向字节码-Java异常到底是怎么被处理的?

why技术

Java JVM

价值连城 人工智能的通识课 - 吴恩达Andrew Ng AI For Everyone John 易筋 ARTS 打卡 Week 59

John(易筋)

ARTS 打卡计划

黑科技解密!实现socket进程间迁移

Java 程序员 架构 面试 架构师

限量!Alibaba首发“Java成长笔记”,差距不止一点点

Java~~~

Java spring 面试 微服务 架构师

如何利用FL Studio进行听湿录干的声音录制

懒得勤快

快速发展的互联网通信,站在开发者背后的融云

融云 RongCloud

堡垒机价格与什么有关?价格差别大吗?

行云管家

云计算 堡垒机

【等保测评】江西等保测评机构只有3家吗?都在哪里?

行云管家

等保 等级保护 等保测评 等保评测

如果用柔性屏做雨伞,那雨伞就不仅仅是雨伞了

船医特拉法尔加

开发者工具

Alibaba开发十年,写出这本“MQ技术手册”,看完我愣住了

Java~~~

Java kafka 面试 MQ 架构师

教你如何使用FusionInsight SqoopShell

华为云开发者联盟

sqoop Shell FusionInsight 脚本 Loader

完美!腾讯技术官发布Java零基础就业宝典,不用再怀疑人生了

Java~~~

Java spring 面试 微服务 架构师

耗时三年才总结出了这份Alibaba(P5-P9)学习进阶路线图

Java架构追梦

Java 阿里巴巴 架构 面试 架构成长路线

不安全的服务器和云服务器:远程工作如何增加了黑客可以攻击的攻击面

九河云安全

从外卖员到程序员,自学3年终于转行成功,三面“拿下”拼多多

Java~~~

Java spring 面试 微服务 JVM

Alibaba内部出品“Java初学者宝典”,让你就业没压力

Java~~~

Java 面试 JVM 多线程 架构师

爱了!Alibaba技术官甩出的SpringCloud笔记,GitHub已标星81.6k

Java~~~

Java 面试 微服务 Spring Cloud 架构师

Java书单-比较全的一篇

汤圆学Java

程序员

FastApi-09-模型嵌套

Python研究所

FastApi 8月日更

趁着课余时间学点Python(九)函数的进阶 生成器 装饰器的理解

ベ布小禅

8月日更

Qunar 大讲堂问题排查

Qunar技术沙龙

问题处理 问题排查 管理系统 开发管理 问题总结

网络攻防学习笔记 Day101

穿过生命散发芬芳

态势感知 网络攻防 8月日更

暗战升级,Databricks收购Tabular,Iceberg社区陷入动荡_大数据_苏郡城_InfoQ精选文章