“云无界、端无边” OGeek 技术峰会 9月17日 南京不见不散! 了解详情
写点什么

Databricks 与 Snowflake 创始人开撕:“未来十年数据仓库要么不存在要么大变样”

  • 2021 年 11 月 18 日
  • 本文字数:4334 字

    阅读完需:约 14 分钟

Databricks与Snowflake创始人开撕:“未来十年数据仓库要么不存在要么大变样”

Databricks 与 Snowflake 之间的激烈竞争再上新台阶,甚至有可能给整个数据仓库领域带来更加深远的影响。


短短半个月,大数据领域新一代领军企业 Databricks 和 Snowflake 就互撕了几回。


11 月 2 日,Databricks 在其官方博客发布声明,表示其数据湖仓(lake house)技术创下 TPC-DS 基准测试新记录,并强调第三方研究表明实际性能可达 Snowflake 的 2.5 倍。


在博客中,Databricks 声称这是一件大事,有助于证明数据仓库在未来十年要么不复存在,要么会大变样,“从长远来看,所有数据仓库都将被纳入数据湖仓”。


11 月 12 日,Snowflake 做出回应,发布了自己的测试结果,同时称 Databricks 公布的性能比较结论缺乏完整性,而且研究本身也存在缺陷。Snowflake 公司创始人还强调这种基准测试没什么意义,在这个年代发布数据库基准测试结果是“将正常的技术交流变成了缺乏完整性的营销噱头”。


11 月 15 日,Databricks 的创始人再次在其公司博客上给予回应,指责 Snowflake 为了测试结果竟然改了 TPC-DS 的输入数据,表示有些人不仅作弊还是“酸葡萄”。


这场战斗,双方的企业创始人纷纷亲自下场,可谓招招致命刀刀见血。大多数软件供应商永远不会满足于第二名,这也意味着 Snowflake 和 Databricks 之间的激烈斗争可能才刚刚开始。


事情经过


第一回合:Databricks 出击


Databricks 正着力推动一种名为“数据湖仓”的新型架构,支持者称这种架构甚至能够消除对于数据仓库的直接需求、颠覆几十年来的行业标准,其意义堪比出现了一款能够直接干掉谷歌 Chrome 的新型浏览器设计方案。


信心满满的 Databricks 挑上的第一个对手,就是 Snowflake——只要能用自己为云时代重新设计的数据湖仓技术击败最强在位者,价值 1070 亿美元的市场就将尽归己有。


11 月 2 日,Databricks 宣布经过事务处理性能委员会(简称 TPC)这家独立行业组织的验证确认,Databricks 的系统性能可达行业内最接近的其他数据仓库竞争对手的 2.2 倍。



Databricks 在博客中声称,在经典提取 - 转换 - 加载(ETL)流程的过滤与处理方面,其智能湖仓方案取得了超越 Snowflake 数据仓库方案的性能表现。此次比较采用了 TPC-DS 的基准测试并得到审计认证,其中 Databricks 实现了 3294 万 1245 QphDS @ 100TB 的成绩,打破了阿里巴巴定制系统此前保持的 1486 万 1137 QphDS @ 100 TB 的世界纪录。


Databricks 还宣布巴塞罗那超级计算中心(BSC)的研究团队运行了另外一项不同的基准性能比较,并发现 Databricks SQL(lake house)在同等规模下的速度可达 Snowflake 方案的 2.7 倍。研究团队在 Databricks 基准测试中使用到两种不同模式:按需与竞价(即使用可靠性较低、但成本同样较低的竞价实例)。Databricks 在按需模式下的成本为 Snowflake 的 1/7.4,在竞价模式下则可达到后者的 1/12。


公司 CEO Ali Ghodsi 在采访中表示,“我们基本上已经成功证明在数据湖仓的技术对抗中击败了 Snowflake。”


第二回合:Snowflake 还手


Snowflake 公司创始人 Benoit Dageville 与 Thierry Cruanes 很快做出回应,发表了一篇《行业标杆 诚信竞争》的博客文章。文中表示 Databricks“发布的 Snowflake 结果不透明、未经审计且无法重现。而且,这些结果也与我们的内部基准测试结果和客户体验完全相悖。”



TPC-DS 基准测试会对体量为 100 TB 的 TPC-DS 数据库运行 99 次查询。


Snowflake 对由巴塞罗那研究团队测得的上述 Databricks-Barcelona 结果提出异议,并自行重现了测试内容:



“配置全部为默认,所有查询都在一套 4XL 数据仓库上运行,总时长为 3760 秒;连续运行两轮,取最佳运行时间。可以看到,Snowflake 的实际结果达到 Databricks 报告结果的 2 倍多。而且这里使用的还只是 4XL 数据仓库,规模仅为 Databricks 测试中所用仓库的一半。”


虽然结果有所变化,但 Databricks 的性能领先地位并没有动摇。不过 Snowflake 目前正在开发 5XL 仓库技术,并宣称“我们现阶段的 5XL 仓库在总运行时间上大大优于 Databricks(2597 秒对 3527 秒)。未来在推出通用版本时,各项水平还将进一步提升。”


Databricks 公司还强调,巴塞罗那研究团队公布的结果证明其产品性价比远高于 Snowflake:



Snowflake 这边的两位创始人当然也不认可 Databricks 的性价比结论,表示其中存在误导性。“我们在 AWS-US-WEST 云区域内运行的 4XL 仓库标准版的按需模式价格为每小时 256 美元。由于 Snowflake 产品按秒计费,所以运行整个基准测试只需要 267 美元,绝不是 Databricks 方面报告的 1791 美元。”


下图所示为 Databricks 宣称成本与 Snowflake 实际成本比较:



所以跟性能的情况类似,Databricks 的表现确实比 Snowflake 更好,但好不了那么多。


而 Snowflake 创始人们认为,“如果使用标准版定价,Snowflake 与 Databricks 在性价比方面就基本相当了:对于此次提交给性能委员会的基准测试,两套方案同样运行 3527 秒后的按需成本分别为 267 美元与 275 美元。”


他们还鼓励感兴趣的朋友自己尝试运行 Snowflake TPC-DS 基准测试,验证到底是谁在信口雌黄。只需点击几下鼠标再等上一个小时左右,就能得出靠谱的结论。Snowflake 本身“不会发布综合行业基准,因为这些结果起不到任何有益客户的作用。”


第三回合:Databricks 再次回喷


几天后,Databricks 的创始人又亲自下场撕 Snowflake,表示自己做的就是“客户至上”的基准测试,并且认为 Snowflake 准备的 TPC-DS 数据集有问题。Databricks 利用官方的数据集、同样的硬件,发现测试的速度慢了一倍,和巴塞罗那研究团队的测试速度差不多。


总之,“我们将官方 TPC-DS 数据集加载到 Snowflake 中,对运行功率测试所需的时间进行计时,结果比 Snowflake 在他们的博客中报告的时间长 1.9 倍”。



基准测试的意义有多大?


Snowflake 公司创始人在回击中强调他们不愿意参与这种“与现实体验完全脱节、只为打压竞争对手而存在的基准测试之争,这种行为不符合我们客户至上的核心价值观。”


他们表示:“二十年前,数据库行业里每隔几个月就会有一次破基准测试记录的事情发生。这在当时是大家的首要任务… 但现在数据库行业停止发布新结果也是有原因的。”


“任何拥有一定从业经历的朋友都有相同的体会,基准性能竞赛只会分散企业为客户打造优质产品时的专注度。”再说回 Databricks 公布的实例,“尽管 Databricks 的结果正由事务处理性能委员会(TPC)进行审计,但为了在比较中占据优势,他们已经把正常的技术交流变成了缺乏完整性的营销噱头。”


卡耐基梅隆大学副教授 Andy Pavlo 对此也表示,“在企业层面,也许有些 CIO 会关心产品在性能委员会那边的官方排名,但排名结果对实际销售的影响并不大。”


虽然事务处理性能委员会的影响力近年来一直不断下降,但在行业内的号召力仍然不容小觑。该委员会建立于上世纪八十年代,旨在为数据库性能评估提供中立的裁定指导。性能委员会会首先发布供各家数据库厂商运行的系统基准,之后再对结果进行小组审议与官方认证。


但随着整个行业的爆发式增长与竞争烈化,这些性能基准不但没有降低人们的认知门槛、反而加剧了混乱与争吵。例如,部分供应商开始大肆宣扬并未得到性能委员会正式认证的测试结果。Databricks 表示,他们发布的最新结果已经得到性能委员会的“审计与公布”。性能提升比例相当可观,足以让一部分仍在犹豫的潜在客户下定决心。


颠覆和变革是一场持久战


关注大数据和数据仓库领域动态的朋友可能有印象,本轮只是 Databricks 与 Snowflake 业务交锋的又一个新回合。


这场冲突势必会加剧数据仓库和湖仓一体技术之间的战斗。


Databricks 最初主要是一家数据湖公司,但一直在添加数仓功能,最终走向湖仓一体。Snowflake 则是反过来的,作为一家数仓起家的公司,却一直忙于拥抱数据湖功能。湖仓一体作为一个新兴架构,很多企业目前还在早期探索阶段。


虽然基准测试没有二十年前那么有影响力,但 Databricks 的测试结果值得关注。


“从长远来看,所有数据仓库都将被纳入数据湖仓,”Databricks 的联合创始人兼首席执行官 Ali Ghodsi 说。“这不会在一夜之间发生——这些东西会共存一段时间——但这个官方的世界纪录清楚地证明,在价格和性能上,数据湖仓完胜数据仓库。”


大数据平台领域专家关涛在回复 InfoQ 的采访中也曾讲道:“现在大多数企业都还没有用到湖仓一体的新架构,他们要么选择了数据湖方案,要么选择了数仓方案。但大方向之下,业内对湖仓一体的整体大方向是高度达成一致的。


湖仓一体的兴起本质上是由用户诉求推动的,大家希望得到更好的数据治理和管理能力,同时又希望有更好的灵活性,特别是随着 AI 的兴起,完全纯数仓的二维关系表已经无法承接半 / 非结构化数据的处理,AI 引擎不可能只跑在纯数仓模型上。所以湖仓一体一定是未来的发展趋势。做数仓的会有更多数据湖属性,做数据湖的也会有更多的数仓属性,最后根据实际需求去找到中间的平衡。”


另外,Databricks 已经从投资者手中筹得 35 亿美元,专门用于聘请顶尖人才、打造竞争产品,可谓与 Snowflake 势不两立。Michalis Petropoulos 于今年 6 月加盟 Databricks 并出任高级工程总监。之前,他曾经领导过谷歌旗下的 BigQuery 团队并监督 Amazon Redshift 项目。此外,曾在谷歌领导 Spanner 团队的 Sridhar Machiraju 也在 11 月加入并担任公司高级工程总监。


这还只是新阵容中很小的一部分,过去一年来已经有十几名前亚马逊、谷歌、Snowflake 以及 IBM 员工加入到 Databricks 阵营。后续预计还将有更为庞大的招聘计划:谷歌工程总监 Amit Shukla 将于本月晚些时候加入。


Databricks 公司联合创始人 Reynold Xin 宣称,“我们的核心数据仓库团队……在实际规模上可能已经超越了 Snowflake 那边。”


在最近的几轮融资、性能委员会的认可以及众多新员工加入的利好加持之下,Databricks 的发展势头无疑颇为强劲。截至 8 月 31 日,该公司年经常性收入已经超过 6 亿美元,由此也能看出人们对 Databricks 的数据湖仓模型确实充满期待。


但前路仍然艰难。虽然 Ghodsi 言之凿凿,认为数据湖仓将给整个数据仓库市场带来颠覆性、甚至毁灭性的变革,但要想真的干掉领域内的头部厂商之一,并全盘取代他们长期受到欢迎的技术方案,单凭性能委员会的一份认证显然还远远不够。至少过去二十年来,无数企业级技术的迭起兴衰已经反复证明了这一点。


延伸阅读:


https://databricks.com/blog/2021/11/02/databricks-sets-official-data-warehousing-performance-record.html


https://www.snowflake.com/blog/industry-benchmarks-and-competing-with-integrity/


https://databricks.com/blog/2021/11/15/snowflake-claims-similar-price-performance-to-databricks-but-not-so-fast.html


InfoQ 采访:现在是采用湖仓一体的好时机吗?


https://www.infoq.cn/article/pb09krdg9azagqh4ls4x


2021 年 11 月 18 日 18:003822

评论 1 条评论

发布
用户头像
有竞争才能不断发展!
2021 年 11 月 20 日 16:54
回复
没有更多了
发现更多内容

程序员职业鉴赏

陆陆通通

程序员 加班 职业病 鄙视链

阿里面试,一面就倒在了Java内存模型上?赶紧来看看

Seven七哥

面试 Java并发 内存模型

破解 Java Agent 探针黑科技!

谭建

Java JVMTI APM Profile

极客父母送给孩子的 ABC Book 就是这么 GEEK

魏彬(rockybean)

GEEK BOOK

Windows环境MySql8.0忘记root密码重置

玏佾

MySQL

如果明天没有恐惧——两小时看完余欢水后想到的……

伯薇

个人成长 心理学 小说 恐惧

给业务线的总经理多交代了几句

霍太稳@极客邦科技

创业 效率 团队管理

当我们在说5G网络安全的时候,究竟在说什么?

石君

5G 5G网络安全 5G安全 网络安全

一文搞定 equals 和 hashCode

shengjk1

Java equals vs hashcode

死磕Java并发编程(1):探究Java并发机制的底层原理

Seven七哥

Java Java并发 并发编程

回“疫”录:开篇

小天同学

疫情 回忆录 现实纪录 纪实

你不必读完一本书

池建强

学习 读书

我从来不在朋友圈晒投资人合影,却融了很多钱

邓瑞恒Ryan

高效工作 人脉 职业规划

三点思考,判断一家公司是否值得加入

邓瑞恒Ryan

高效工作 个人成长 职业

2020,这个世界会好吗?

IT民工大叔

读书笔记

公司大了,人多事杂,如何落地项目制?

树上

项目制 落地 公司管理 业务线 考核

Java中的Stream用还是不用

孙苏勇

Java 流计算 程序设计 性能

媒体的经营 01 | 媒体/内容行业投资分析的维度

邓瑞恒Ryan

创业 内容 重新理解创业 媒体 投资

机房运维需要了解东西

Spider man

一个值得推荐的人才测量标准

Selina

Scrum vs Kanban,如何选择

TerryLee

Scrum Kanban 敏捷开发 Worktile 研发管理

聊聊:Java

谢烟客

Java 编程 开发者 随笔杂谈 「Java 25周年」

像黑客一样思考

Fooying

黑客思维 黑客 安全攻防

复用到何种程度

孙苏勇

Java 程序设计 复用 面向对象 抽象

一篇文章搞定 java 中的 path 和 classpath

shengjk1

Java classpath vs path classpath path

Flink获取kafka中每条消息对应的topic

shengjk1

flink kafka flink 消费 kafka 获取 topic等信息

关于Iterator和Iterable

shengjk1

Java Iterator和Iterable

Arduino 蓝牙遥控+超声避障小车

黄耗子皮

树莓派 极客

国内10大前端团队网站

bigezhang

技术 大前端

Fire Fast 再深一层的是什么?

树上

管理 考核 Fire Hire 用人

Idea工程启动时报错:Command line is too long

玏佾

intellij-idea

首届腾讯云大数据峰会暨Techo TVP开发者峰会

首届腾讯云大数据峰会暨Techo TVP开发者峰会

Databricks与Snowflake创始人开撕:“未来十年数据仓库要么不存在要么大变样”_大数据_Tina_InfoQ精选文章