随着大数据技术的融合发展,企业对数据平台的要求越发多元:不仅要能够整合集成、存储、管理海量的多源异构数据,还要能够提供连通业务的多样化数据服务能力,并且能够支持不同应用、不同场景中的落地。从 Hadoop 到 Snowflake ,数据平台的发展呈现出清晰的路径,在与云的结合上也探索了丰富的技术实践。
那么,数据平台的下一次“潮涌”何时到来?中国版 Snowflake 何时出现?为了探讨问题的答案,我们策划了《极客有约》特别版——《再谈数据架构》系列直播。第一期,我们邀请到了云器科技联合创始人 & CTO 关涛、Bolt 高级技术副总裁 Xiao Guo 和 RisingWave 创始人 & CEO 吴英骏博士,分别从平台服务商、用户以及投资方的不同视角分享各自的观点。
技术演进及发展:从百花齐放到双线同归
InfoQ:数据平台经历了一个怎样的发展过程?
关涛:大数据大概是从 2003 年开始发展的,开始的标志是《MapReduce》《GFS》《BigTable》三篇 paper 的发表。如果从时间维度上对比来看,数据库从七十年代起步,至今大概是 50 年的历史;大数据至今的历史是 20 年;深度学习是 2013 年左右开始发展的,至今刚好 10 年。
大数据技术的发展是个典型的“规模带来突破”的例子。如果你把两个数量级以上的数据,以相对低的成本计算起来,形成的效果可能跟以前完全不一样。这种突破是“跳变型”突破。这种模式非常多见,比如最近特别流行的大语言模型, 其本质上也属于“海量数据加海量模型规模“组成的一个跳变。
我通常会把大数据的发展分成 3 个阶段:孕育期、发展期和普惠期。
第一阶段,从 2003 年到 2013 年是孕育期。大家只听过一些耳熟能详的大厂在做大数据相关的建设,比如谷歌做搜索引擎后台数据处理。2006 年,我加入微软做的微软第一代 KV 系统,也是为了支持搜索业务。
第二阶段,之后 8-10 年的时间是发展期(2013-2023)。发展期有两个关键事项推动了大数据的发展:其一是以 Hadoop 为核心的开源技术;其二是云计算。云计算相关技术的发展极大程度上降低了大数据平台的建设门槛。所以,大家可以看到目前主流的大数据平台都是在 2012 年前后开始发展的,比如说刚才提到的 Redshift 是云上数仓的典型代表,Snowflake 在那时候成立,阿里巴巴大概那个时候开始做阿里云和飞天大数据平台等。
第三个阶段,我个人将其称作普惠期。普惠期的特点有两个:其一是千帆竞发后,大部分企业被淘汰,少数企业通过竞争最终占领市场,然后逐步形成规模;其二从技术角度来看,部分技术的发展趋于成熟,如批计算、流计算和分析的一些范式被固定并广泛应用。同时,一些外延的技术比如跟 AI 相关技术的会持续发展。
我认为,美国市场可能在普惠期的早期(Snowflake 等核心厂商仍然保持高速增长,年化增长率 60% 以上);中国的市场已经到了发展期向普惠期转换的阶段。
吴英骏:数据平台是从数据库演化出来的。
上个世纪六七十年代有了数据库后,大家自然而言会考虑怎么用这些数据进行分析?比如 IBM 的 DB2 是不是能够变成一个可以做分析的平台?最早一批数据平台都是这样慢慢发展过来的。当时相对独立的数据仓库有 Teradata,它是全球最大的数据仓库公司之一,在上个世纪七八十年代就已经开始做了。
我觉得数据平台发展的一个核心标志是 Google 在 2004 年发表的 MapReduce 这篇文章。这篇文章发表之后,大家对这个领域非常关注。每个公司内部都有大量的闲置机器,那么,能不能使用这些闲置的机器、大量的闲置计算资源去做大规模的数据分析?2010 年前后,很多创业公司因此想做 MapReduce。另一方面,MapReduce 是 Google 做的一个产品,这个产品在 Uber 等公司是没有办法用的。那怎么办?开源。所以当时就有几个非常火的项目,如 Hadoop、Hive、Impala、Spark。2010 年之后,云时代来了。Snowflake 也是在云时代火起来的。因此,我觉得数据平台在美国的发展,是从单机时代开始,往上一点点发展到 MapReduce,再发展到开源,然后再发展到云上的一个过程。
Xiao Guo:我主要从应用层面说一下我的一些见解。
第一,现在自建数据中心的公司比较少。Bolt 使用的数据仓库是 Google BigQuery。以前 LinkedIn,Uber 早期的时候还要自建数据中心,现在基本都上云了。现在大部分公司都是用的这三家的数据仓库,即:Amazon Redshift、Google BigQuery、Snowflake。
第二,实时数据分析对应用层面来说非常重要。通常来说我们会把线上数据库中的数据 Stream Replication 到数据仓库里面,使用统一的数据仓库便于进行实时数据分析。有时候我们还需要工程师在数据仓库进行人工排错等等。因为这样就能不影响线上运行,成本也相对比较低。
第三, AI 和 Machine Learning。现在大部分的公司都会或多或少做一些 AI 和 Machine Learning 的应用,这就要求 data platform 要考虑到 AI 和 Machine Learning platform 的集成。
第四, Experimentation Platform。企业做增长、做应用要不停地进行实验,不停地尝试。在这种情况下,data platform 跟 experimentage platform 能否很好地集成非常关键。
第五,数据的运营。我们有个机构专门投数据相关的早期的 a 轮公司。在与众多创业公司的交流中,我们发现持续的数据一体化和高质量交付越来越受到企业重视。虽然行业内在这方面还处在比较早期的阶段,但我们的确看到了一些尝试。
InfoQ:普惠的意义就是大家在做技术方案选型的时候,不管是大企业、中型企业还是小企业,都有一套可以选的技术路线方案,并且门槛不太高。那么,目前行业内有哪些不同的数据平台技术路线或者说发展方向?
关涛:从企业客户视角看,目前行业内的技术路线有开源组装自建和购买商业化服务,分别代表着两类技术方向。技术路线的选择也是企业客户在技术方案选型时面临的选择题。
开源自建的技术路线,指的是用不同的开源组件拼接在一起,形成一个完整的生态。开源组件可以随业务需求修改,定制化程度高。
购买商业服务的技术路线,通常意味着企业希望数据平台做到一体化、更简单、免运维。这条技术路线比较典型的技术产品就是 Snowflake。Snowflake 统一管理企业所有的数据,提供所有通用的功能,给用户一体化的体验,对于实现降低门槛做普惠非常关键。
Xiao Guo:我所在 Bolt 这种独角兽的公司,一般来说都是比较倾向于第二条路线,即购买 SaaS 平台的服务。对于小型公司而言,SaaS 平台是比较理想的一个选择。因为这样的平台比较好用,可能很快地部署。企业可以做自己想做的产品,还不需要花费很多资源深度定制、维护平台。
随着公司增大,定制需求越来越多,一些大公司可能更倾向于自己开源,然后自己组装,这样的话会更加方便控制。
吴英骏:在 Uber 那个年代成立的公司选择自建的一个很重要的原因是,那时候技术还没有很成熟。在那个年代,他们选择自建数据平台成本很高。最近十年成立的公司,尤其 2015 年之后成立公司,已经很少选择自建数据平台了。一方面,技术已经更加成熟;另一方面,市场环境的原因导致自建成本不可控了。在这样的情况下,企业怎么会选择每年花几百万美元还都不确定能做出什么东西,而不是去买一个市面上已经有的成熟产品呢?
分析企业真实需求,把握技术“普惠期”新机遇
InfoQ:企业对数据平台的需求及需求的演进是怎样的?
Xiao Guo:首先,过去一年,美国整个经济比较疲软,所以大部分企业的业务重心从不惜一切代价求发展变成了更关注收入和成本控制。所有的公司都在要求削减成本。公司技术负责人需要看人力成本和软件成本,其中软件成本对大部分的创业公司而言,指的是云上的成本、data platform 或者 data warehouse 成本。
其次,削减成本是 bottom line,增加收入 top line 相较而言更重要。企业在选择项目时的标准是不能天马行空、不能在几年之后才会产生营收,必须要聚焦、要关注接下来的 12 个月左右能够看到营收。
再次,现在 AI 和大模型都非常非常火,大家对 AI 有非常大的兴趣。我们看到大公司比如 Amazon,他们在用大模型技术提高、优化现有的一些模型、一些业务。小公司像我们还没有完全用上大模型,不过也在考虑这件事情了。小公司一般不会建设自己的 machine learning platform,而是会采购已有产品。
最后,美国企业对于数据的安全性和隐私的关注度是越来越高的。
吴英骏:我们分技术层面和商业化层面来讲。
从技术层面来讲,大数据已经发展挺久了,我认为并不存在什么真的难点。
从商业化角度来讲,我觉得现在一个很大的发展方向是效率,企业需要更加高效。高效的标志有多种,比如企业不需要自己建机房、买机器、联机调试等,只需要付钱买服务立刻就能用,方便快捷是高效;随着技术发展,原本昂贵的服务、较差的性能逐渐优化,价格便宜的同时性能越来越好,性价比高是高效;实时服务也是高效的一个标志;所有的数据平台都在往 SQL 方向发展进而提升开发效率。
总的来说,我认为目前技术层面很多问题都已经被解答了;从商业化层面,或者说从市场发展规律来讲的话,未来肯定是往效率方向去讲这个故事。
关涛:数据平台的技术从孕育期到发展期再到开始进入普惠期,这三个阶段的变化跟客户的变化也是相辅相成的。技术发展分成三个阶段,客户也分成三大类。
在孕育期,客户通常是 early-adopter,不一定是大公司,而是技术能够做到极致的玩家,人数很少,可以称作是金字塔塔尖上的那一群人。他们有很高的技术水平和动手能力,能修改开源代码,能推动技术做迭代,这是 early-adopter。
到发展期,我们把客户归类为 Early majority。技术理念初步深入人心,市场上一大批对新技术有渴望的人会把这个技术用起来,然后会催生很多技术型的平台服务提供商。
然后是普惠期,我们把客户归类为 late majority。大家觉得用这个技术已经是一个公认的事情了。
客户需求就像一个金字塔,从最顶尖的客户需求开始向下一层一层地扩展。最开始的 adopter 侧重于 0-1,要满足从来没见过的新场景,要通过技术带来竞争的独特的差异化优势,要构建竞争门槛,所以那些技术的创新和变化是非常非常多的。在这种变化里面,开源的众筹迭代模式很重要。
再往下一点,模式就会变得固定一些,大家都这么用,然后形成了最佳实践。最佳实践累积沉淀成平台,然后平台慢慢就打磨起来,能满足多样的客户需求,让更多企业能用起来这些平台。
结合我之前的经验,我们会更细致地把客户大概分成四类。
第一类,我们叫做一线大型科技公司,在过去通常是互联网公司为主。比如市值排名前 30 的企业通常有很大的规模,有很强的技术创新的诉求,会有很多定制化的需求。这些企业一般会去选择自建。
第二类,我们叫做 digital native,就是数据原生的公司,这种类型的公司通常规模中等,可能在 100-1000 台物理服务器的这样的一个规模。这些企业我们能看到他们越来越不考虑自建了,他们会觉得自建反而不划算。举个例子,之前国内有一家公司 A,大概需要 100 台 物理服务器做数据平台,硬件成本年化大约 300 万 / 年,如果选择自建的方式,企业要把一整套数据体系做起来大概需要 10 个模块组件,需要 4-5 人的团队来维护,人力成本大概也需要 300 万元一年。如果购买 SaaS 服务,含硬件成本也就 400 万。企业发现自建人力成本几乎和硬件成本一样高,所以这类企业慢慢开始转向购买平台服务。
第三类,我们叫做有技术能力的传统企业,典型代表比如说银行、保险,现在包括新制造比如造车企业,他们有很多的数据需求。他们技术能力很强,也有很强的付费意愿。这类型客户大部分选择购买数据平台,像银行通常不太会选择自建数据平台,一定会选择购买,因为觉得买来的商业化产品可能从安全性、稳定性的角度是有厂商负责的,有人兜底的,这个对他们很重要。
第四类企业,我们叫做传统企业,还有数字政府类的,这些企业通常是个纯粹的使用者,他们甚至都不具备构建数据平台的能力。不同类型的客户要的不一样。第一类,可能是自建和极致的定制化,中间两类的可能会购买平台型的服务。最后一类,可能他不会买平台,也不会建平台,要的是个解决方案。
InfoQ:在需求这方面,中美之间有差异吗?
吴英骏:我觉得肯定是有差异的。美国企业可能更加 care 的是易用性方面,而中国企业看重的是性能。
还有另外一个点是,中国的用户更加偏向于大一统的系统需求,可能是需要用一套架构解决所有问题。比如我们用微信的时候,我可能不太想希望去跳到其他平台,微信小程序就类似于转化系统;但美国由于产品实在太多了,而且它产品分工非常明确、非常细,所以对于美国来说最优的解决办法是去把这些东西拼装起来,只要你能给我一个非常简单的拼装方式,我就非常满意了。
关涛:先说技术,技术上中国和美国几乎拉平的,得益于非常频繁的技术交流,比如说今天这样的一个圆桌。
在商业生态上,国内跟美国,不同的企业可能不一样,大概有 3-7 年的差别,美国的商业生态上更关注的事情,国内可能要再晚几年才会关注到,比如安全和隐私保护,这是我个人的视角。
除此之外,中美还有几个差异点:
第一点是付费意愿的问题,美国企业更愿意为知识、为软件来付费。在国内你会发现很多小公司愿意开源自建,原因就在于软件的费用就省掉了。当然,后来大家越来越明白,可能人力资源的那部分成本比一般软件还要贵。
第二点是迁移方向的问题。刚才嘉宾举了个例子,大家觉得 Snowflake 太贵了,然后转移到自建上去,我这看到正好相反,我这边看到的在国内的特点是说,国内大多数公司把自建平台转向了 SaaS 托管化的平台,这件事的核心是公司要削减成本,公司会把那些维护这个平台的人转移到业务上去。
第三点不同是对安全的要求不相同。美国对数据隐私安全合规的要求要高一点。
第四点,我个人认为国内公司的技术好奇心更强,也更开放。你跟他谈一些新技术,给他一些新的产品,他非常愿意尝试,并能快速迭代给你。但国外可能门槛要高一点,你不达到一些成熟的标准,比如说不达到合规和稳定性的标准,很多美国的企业一定打不进去。这也是国内的技术生态发展迭代快的一个因素。
InfoQ:Snowflake 现在在大数据里面做得非常成功,这个平台它这么受欢迎的原因是什么?
Xiao Guo:作为用户,我觉得它最好的一点就是你用它的时候不用去特别去想它背后的细节。它可以提供很多功能,能帮助企业进行基础设施的复杂管理和优化。
并且,Snowflake 也是 SQL based。engineer,product,manager,product analyst 甚至 customer,所有人都可以用 Snowflake 很简单地去查询想要的内容,看到业务数据的一些表现。同时它可以支持任何云厂商,企业不用担心自己因为在哪个云平台上而得到有限的服务。
Snowflake 也会有一些安全的标准,在数据的加密上做得很好。再就是查询响应速度。作为一个用户来说,我最关心的是一个 query 能不能很快反馈,能不能支持很多用户同时访问等。总而言之,作为一个终端的客户,我更关注的是我自己的产品,而不是去花很多时间去想数据平台如何构建。如果一个平台让你不用去想它就能用,能让你有更多时间专注于做对自己公司而言重要的事情,还能满足公司需求,就是一个很好的平台。
吴英骏:我们经过长期访谈发现,用户用 Snowflake 是越用越爽的。用户一开始没有想付那么多钱,但是这个平台实在太好用了,所以他就一直发 query,就导致这个平台越用越贵,账单才会越来越高。但是如果要去问用户说,Snowflake 到底好在哪?他们都说不清。另外,Snowflake 的用户模型,或者说它的收费模式也非常好,好处在于说你不用去选机器,你只要告诉我你选的一个 T-shirt Size,其他东西都帮你搞定了。Snowflake 现在在往 DataCloud 方向改良,集成了相当多的东西,这些东西能让客户使用产品时一键搞定所有事情。
关涛:前面嘉宾提了很多形容词,我用一个词来形容它,叫一体化。
Snowflake 的一体化的能力其实做得非常好,使得它很容易能被很多人用起来。如果一个公司的平台建设完,但这个平台只有数据开发的那几个同学能用起来,别人要用的时候都要经过这几个人,整体效率就很低。Snowflake 的一个好处就在于也许你不是特别懂系统,也许你只是会写 SQL,你也可以把它很好地用起来。刚才说的扩展性的问题、调优的问题都被系统屏蔽到系统底层之下,你不需要管它。
这种一体化的能力,是提升业务效率,降低使用门槛的关键。让那些并不太懂技术的人,也能够很好地使用数据平台,就是 Snowflake 成功的第一个关键点。
多云或者叫云中立是 Snowflake 成功的第二个点。很多客户、特别是大客户特别看重数据平台是否会绑定在一家云上。
第三个关键点是 Snowflake 面向云原生弹性的收费能力。对于小企业来讲, Snowflake 起步非常便宜。
所以让我总结 Snowflake 这个平台受欢迎的点,一个是一体化的能力,一个系统解决大多数问题;第二个是多云和云中立;第三个是弹性的收费能力降低了用户使用的门槛。
把脉市场趋势:中国的 Snowflake 路在何方?
InfoQ:从投资人的角度,你如何看待数据平台技术的发展?
Xiao Guo:目前我们在看一些生成式 AI 的项目,因为我们觉得数据是接下来十年或者更长久的一个巨大的最本质的推动力。大家都说接下来的十年 AI、生成式 AI 会为社会的生产力带来极大提升,而驱动 AI 最底层的就是数据。所以我觉得在接下来的十年之内,数据还有 AI 都是非常大的一个浪潮。
InfoQ:一家初创公司需要具备什么样的特性,你才会考虑投资?
Xiao Guo:很多方面。
早期公司我们很看重创始人的背景,因为我们投的就是偏技术的公司,创始人及创始团队需要有很强的技术实力。
第二,看产品是不是能解决市场上的一些痛点。要么企业自身已经有用户,要么市场上跟他同类型的不同阶段的公司已经有用户。初创企业,就看他们有没有愿意付费的人;比较后期的话,我们就看他有多少付费的用户。公司产品是否能解决具体的问题,拥有哪些具体的客户,对我们来说很重要。
第三,我们还要看这个赛道有多大,这个市场有多大。有的企业不仅面向科技企业推荐产品,还会向一些传统企业推销产品。随着对数据的需求不断增加,传统企业也会增加软件的采购需求。我们投资的时候,一般除了跟这个团队聊,我们也会跟他们的客户聊,问客户的使用的体验,对整个产品有什么反馈等。
InfoQ:不管是从使用方的角度,还是从创业者的角度,行业内对中国版 Snowflake 的呼声从未停止。各位嘉宾怎么看这样的一个浪潮呢?
吴英骏:这个我觉得应该说是叫众望所归。
现在大家都可以看到国内有很多云平台,比如说像阿里云、腾讯云、华为云包括像天翼云,包括像其他一些各种各样云平台,有这么多云平台。但是中国似乎没有一家类似于像 Snowflake 这样的独立的云平台。我相信这个赛道有很多玩家,但是我们没有见到过一家有 Snowflake 这种影响力,或者说有很多人认可的独立第三方的公司,现在目前没有。
在跟国内用户聊的时候,我发现国内用户他们都希望用多云,他们不太希望被一家云绑定。他们甚至会自己做一些迁移,就是为了防止被一家云绑定。
所以,如果这时候出现一个第三方的产品,足够好用,价格相对来说比较合理,一定有其存在的合理性。
关涛:我听到的呼声蛮多的,从我在阿里云做阿里云平台的数据平台产品的时候就能听到。主要原因大概我觉得可能分成三类。
第一,快速发展的中国云市场,带来更多需求。中国是个大市场,有很多的用户和海量数据,但是中国的云规模相对不大,中国的云跟美国的云从营收层面比,大概有 1:7 的一个比例,这个跟中国整个经济的体量并不太匹配。从这个层面,我们刚才提到的数据发展三阶段,就是从这个孕育期到发展期到普惠期,云本身也是在发展期后期到普惠期的前期。中国的云市场还有很大的发展空间。
第二,中国缺乏多云独立的数据平台服务。中国云生态很分散,大家提到美国就是三朵云了,几乎没有第四。中国除了刚才提到的阿里、腾讯、华为以外,还有像天翼、字节等等。中国的云发展的生态更分散,这个也是技术发展期的一个特征,就是百花齐放的一个样子。这种百花齐放对用户来讲确实是个问题,他希望不被锁定。
第三,从对标厂商层面看。美国三大云数仓 + 两个独立数据平台(Snowflake,Databricks) 的数据平台格局已经形成。相比起来,国内做原创数据平台技术的公司并不多,市场整体还是偏空白的状态。
InfoQ:如果出现一家中国版的 Snowflake,那这家企业应该具备什么样的特质?
吴英骏:我相信它肯定不是一个单纯的 copy ,肯定是需要去做本地化。在中国市场做本地化,跟在美国市场有非常多的不同。
首先,生态方面的差异。整个大数据的生态两者是不一样的,比如说美国市场是像亚马逊云科技、GCP 这些生态,在国内可能是阿里云、腾讯云这样的生态。
其次,用户需求的差异。从国内用户的角度来去考虑的话,他们相比于美国用户,对性能相信是有更高要求的。国内企业的业务量非常大且独特,像双 11 这种业务场景的流量和独特性肯定是秒杀美国黑五的。如果你做中国版 Snowfalke 只是去 copy 的话,可能意义不是特别大。
最后,用户文化的差异。在美国文化中,美国用户能够接受企业做拼装融合多种产品需求,但在中国不一样,它希望最好能做成微信的样子,一家全部能做了。
回到话题本身,我相信如果要是中国做一家 Snowflake,它需要在本土化上面做得非常强,肯定不是去 copy to China 这样的一个模式。
关涛:如果与 Snowflake 对标起来,我觉得有五个标准:
第一,它应该是多云的。
第二,它是一体化的,能用一套系统能解决用户的很多数据的问题。或许不一定解决所有问题,但它至少应该是一个高内聚、低耦合的系统。
第三,我觉得关键的是原创的技术。如果今天拿开源的技术组装成一个系统,它很难做到非常好一体化。无数的案例已经证明了这一点。Snowflake 好就好在它是一个一体化的东西,是非常耦合一体化的东西。
第四,我很同意嘉宾刚才提到的,就是不能照搬,就是如果今天照抄 Snowflake 的技术,那是 8 年前的技术。Snowflake 起步大概在八九年前,让它火起来的技术在当年是创新但在现在已经不是了。所以中国版 Snowflake 要有原创能力和面向新一代的技术的创新,要比 Snowflake 做得更好才可以。
第五,好的 To B 能力或者说本土化。好的 To B 能力指的是基础设施产品。除了技术以外,你要有很好的产品的包装能力,让用户用起来很“爽”;要有很好的商业服务能力,包括现场实施、安全性合规等,能够服务好客户。
所以总结下来,中国版的 Snowflake 应该有五个特征:多云、一体化、原创的技术、比 Snowflake 更新一代的创新、好的 ToB 能力。
我觉得目前国内还没有一家公司可以做到这些五点,并且已经形成影响力。我们云器希望构建这样的一些服务,这也是我们的一个目标。
InfoQ:关涛老师的公司云器科技在 7.20 的时候有一个发布会,能不能请关涛老师给我们提前剧透一下?
关涛:前面大家已经聊了很多,我谈下我们为什么要做这样的一家创业公司?
在美国数据平台领域,三家核心云厂商都有原创的“主力”数据平台,还有两个独立的数据平台(Snowflake、Databricks),形成 3+2 的格局。在国内,真正做原创的数据平台技术的公司并没有那么多,目前也没有一个成规模能像 Snowflake 一样的多云平台独立提供商。所以,我们希望能够做一个多云和一体化体验的数据平台,能够普惠国内的用户。所以,我们做了云器科技。
商业模式上,我们跟 Snowflake 很像,是多云独立设计、一体化极简的架构。在技术上,我们提出基于 SingleEngine 理念的湖仓平台,很多能力会超越 Snowflake。
我们在 7 月 20 号举办首发发布会,会正式推出我们的 Lakehouse 平台,同时会有实际的客户案例展示出来。大家想要关注我们的话,可以搜索云器科技,能看到我们的官网的页面。
7 月 20 日,云器科技将首次对外举办新品发布会。云器首创以“Single-Engine”为核心理念的湖仓平台,目前已经完成了数亿元融资!为什么云器可以在当下的市场环境中获得投资方和企业客户的青睐?点击“报名 https://www.yunqi.tech/summit2023 ”立刻报名发布会一探究竟!
评论