中国数据库行业随着 2021 年 7 月 PingCAP 完成 3.4 亿美元融资,估值达到 30 亿美金,把中国数据库行业引爆了。2022 年 12 月 23 日达梦数据库 IPO 顺利过会,如果上市成功预计估值在 500 亿人民币,不出意外的话,这将是科创板最大的 IPO 之一。
那么你知道中国的数据公司有多少吗?据不完全的统计已经超过 300 多家,那 2023 年数据库市场又会是什么变化呢?我这里抛出来 5 个问题借本文与大家讨论一下。
Q1. 中国和海外数据库的差距还有多远?
Q2. 未来是 OLTP 还是 OLAP ?
Q3. 从国际上来看 HTAP 是不是未来?
Q4. MySQL DBA 和大数据从业者会有什么改变?
Q5. 现在还是不是数据方向的创业好的时机?
Q1:中国和海外数据库的差距还有多远?
也许有很多朋友认为,我们现在国内有 300+ 数据库公司,每家公司的产品都有独到之处,如果从全球的数据库上来看,我们应该是最先进的了吧。例如 2019 年 OB 打榜了 TPC-C,全球开源项目 TiDB……
如果单纯的比较中国数据库和海外数据库差多远,其实都比较主观,那么不如通过 OB 打榜 TPC-C 来分析一下。
其实如果懂行人来看 OB 打榜第一名,感觉说是中国数据库第一次参与了 TPC-C 更有意义。2019 年 OB 打榜 ,距离上次 Oracle 2010 年的打榜过去了 9 年,在硬件、系统、软件都有变化的情况下做到了和 Oracle 上次打榜基本相同的成绩:tpmC 为 6.25,Oracle 第二名 1.01USD,从成本上来讲几乎是相差无几。OB 打榜公布的第一次打榜费用是 380,452,842 元,通过这件事情可以说,我们追上了人家 9 年前的实力。也许是被行内人指出来了,OB 也觉得需要再次雄起一下,2020 年 OB 再次打榜 TPC-C 花费 2,814,509,552 元,实现 3.98 元 /tpmC。细心的朋友可能对比出来了,硬件再次提升了,机器规模又翻 7 倍 + 的情况再次打榜。因为每家的 TPC-C 压测程序都不开源,大家也基本是压着 tpmC 上限是 12.86 测试,高于这个值就被视为全内存操作的无效测试。
粗略整理了一些数据方便对比:
从上面的数据看,测试数据基本上都是贴着 12.86 进行,你懂的。
如果通过这个测试来对比中国数据库和海外数据库的先进性,我的观点是:
中国的分布式数据库可以进行 PB 级别的操作
中国的分布式数据可以进行到上十万个 + core 一起工作
中国分布式服务器可以达到上千台一起工作
那我们先进吗?我只能说我目前没看到有项目能运行起来这个环境,毕竟一个数据库项目花 28 亿人民币(3 年费用),我还没见过。OB 的测试是基于云上来评测的,我们也来看看海外云上的 RDS 及对应的报价。
Oracle Cloud 上 MySQL 报价
MySQL 单集群 HTAP 解决方案,月成本:2 万美金,存储最大支持:50T。
AWS Aurora VM 报价
AWS 的 Aurora 最高配支持 5 PB 存储,每月 517,256 美元,其中存储太贵占到了 512,000 美元,实际生产中肯定不会这么干,因为真正的 OLTP 数据不会有这么多,更多的数据可以归档到 Databend、Snowflake 类在线数仓中来降低成本,这类云数仓每 TB 的成本在一个月 120 元左右。
阿里云 PolarDB
就成本来算,我觉得阿里的 PolarDB 价格是优于 Oracle、AWS 的价格。我们再回过头来看,中国的数据库和海外的数据库差距还有多远?
从 DB-engines 排名上看 TiDB 排名 49 位,GBase 排名 79 位,OceanBase 排名 87 位,TDSQL for MySQL 排名 101 位,前 150 名排名中阿里云进入 4 位。
我感觉到我们部分场景确实超越海外的产品,但感觉海外的产品在向着更加务实的方向发展,反观国内这种超大集群的引导,造成了用户不必要的成本浪费。
海外数据库今年发展方向:
云原生方向:CockroachDB(排名 34 位), YougabyteDB (排名 44 位), Snowflake (排名 8 位)
更加易用的方向发展:更方便维护,例如 PlanetScale 在 OLTP 中对数据引入 git branch 概念
DB Serverless 按使用时间付费,存储按使用空间付费,不再为预留付费
从这些方面看来,国内的数据库追赶的很快,国内也有上面类似的产品,但真正 get 到灵魂,这些理念被企业所接受,估计还需要 3-5 年时间。
Q2:未来是 OLTP 还是 OLAP ?
首先从 TPC-C 打榜上来看,数据库厂商对于这个 Benchmark 大都失去兴趣了,也冷静了,微信群里也没有因为打榜而进行口水战,我们也成熟了。因为基本上大家也都明白,在一定成本预算下,选择出来合适的产品就可以。例如,业务对 SQL 响应指标要求 500 ms 以下,支持 3000 QPS 就可以满足业务,支持到 IPO 没啥问题了。在这样的前提下,大家肯定不再是按打榜来选择,因为大家在数据库这个方向上有所积累后,可以选择的开源产品太多了,甚至云上的 RDS 采购一个也够用了。整体上来看现在的 OLTP 已经非常成熟,现在 OLTP 卖货,更多是打着安全、有保障、合作联合开发(卖数据库保险一样在卖货)。
大家口水了多年的 MySQL、PostgreSQL 谁更强,争论多年后,也终于有了一个初步的结果。在互联网领域里 MySQL 还是当之无愧的王者,Pg 也在国产化领域中披上各种马甲在冲锋,MySQL 也在披着马甲,还有套着 Pg 往前冲的。也可以说 OLTP 基本是一种成熟状态,最终谁能在这波浪潮中赢下来,就看谁能拥抱一个更加开放的生态,整合更多的合作伙伴,输出更多解决方案,例如银行系统运行、火车票售票系统、电力的数据库系统等。
虽然 OLTP 比较成熟,但通常它的成本也比较高,大家也会把 OLTP 的数据慢慢转向 OLAP 对外提供服务,也就意味着 OLAP 可以创造更多的财富?我现在算是从 OLTP 跨入了 OLAP ,给大家分享 2022 年我看到的两个案例:
Case1:一个朋友在从事猎头行业,别人找他要人后,他总能很快的找到合适的人给甲方,并较快的获得到甲方的认可。这个事情,最初我看到觉得他太牛 X 了,我也非常好奇他怎么做到的?后来熟悉后才知道他就是 OLAP 运用的高手,他获取 gharchive.org 上数据存入 Databend(Databend + COS) , 然后对甲方想要的技术人员画像,这样些人可能对什么 Repo 感兴趣,然后找到对应的 Repo 中的贡献者,联系其中活跃的人,给他们分享机会,获得认可。他是我见过转猎头比较成功的程序员。
Case 2:分析区块链钱包,进行跟投(纯属虚构)我们在炒股中,经常想着可以看看今天谁买了什么,或是大家都在买什么就可以有很多决策了,但这些数据需要去购买,而且非常的贵,还拿不到成交和账户的对关系。在区块链中,这一切都是透明的,谁花了多少钱,买了什么,这一切都在链上。今年看到一些猛人对链上的数据进行解析后,分析出来盈利最多的 Top 1000,然后再找到适合个人风格的进行跟投。这个也可以说 OLAP 的一个应用。
举了两个个人在使用 OLAP 的场景,其实企业的使用 OLAP 的场景也非常多,也有成熟的套路,只是后续的 OLAP 的成本会越来越低,越有利于用户的使用。目前也可以说是海量的数据时代,在 OLAP 中数据到 PB 级都和玩一样,今年经历了 N 多单天数据量在 100T 以上的项目,也让我对 Databend 这个项目产生了非常大的敬意,这类数据的压缩基本能达 8-20 倍的压缩, 同时还能较好的支持计算。
新一代的云原生 OLAP 也在替代着传统大数据项目,SQL 成为统一语言,新一代的云原生 OLAP 也会让大数据项目越来越简单。OLAP 让大数据项目也在向着更便宜、更好用、高性能的方向发展。
Q3:从国际上来看 HTAP 是不是未来?
HTAP(Hybrid transaction/analytical processing)是一个数据库的超融合方案,把事务处理和分析处理都集中在一个系统中对外提供服务。目前这也是 OLTP 方向的数据库在追求的一个重要方向。
目前国内实现 HTAP 数据库有:
TiDB
OceanBase
PolarDB (阿里)
TDSQL-H ( 腾讯)
BaikalDB (百度)
海外实现 HTAP 数据库有:
MySQL + Heatwave
Snowflake
SingleStore( 前身 MemSQL)
AlloyDB( Google)
Aurora + Redshift
可以说一时间大家把是否支持 HTAP 作为数据库对比的一个重要指标,更夸张的一个论调说:HTAP 是 MySQL 生态的最佳归宿。实质上这里有一个前提,在 10TB 以下 HTAP 感觉可以一战,再大一点 HTAP 的方案的成本不是一般人能扛住。以至于很多用户产品演示时上最贵的 HTAP 过关再说,交付时可能挂一个 PostgreSQL 也能满足客户实际场景的也不少,同时今年可能是因为行情不好,遇到挺多跑 300-400 台 HTAP 集群,数据量在 500T 左右的用户,抱怨复杂 SQL 影响整体集群处理能力,也不太敢扩容,把数据定期归档到 Databend ,利用 Databend + 对象存储对外分担一部分的查询分析,从而降低成本。
那么 HTAP 是不是未来?
我觉得是的。用户最终赚钱的是业务,让业务可以更加简单的在数据库上运行起来,把 OLTP 和 OLAP 包装起来对用户透明,绝对是一个非常硬的需求,这估计也是 Snowflake 今年增长特别快的原因之一吧。
但 HTAP 也有它的局限性,价格太贵。通常在云环境中,我们认为计算和网络是最贵的,但在 HTAP 数据库系统中,当存储增长到一定量时,你会发现好像计算和网络又是最便宜的,但这些相对于对象存储 1T 一个月只要 110 元(国内更便宜)无法相比,这也是我个人感觉 HTAP 适合中小型项目快速 Startup 的原因,让业务赚到钱生存下来,再说利用云原生数据库相关技术把成本和运维降下来。
Q4:MySQL DBA 和大数据从业者会有什么改变?
这个时代一切都在变,我刚工作那会能把 LAMP + Squid 在 40 分钟内顺利安装完毕,入职 Sina 都没啥问题了;再早一点时帮别人安装一个 Oracle RAC 一晚上赚个 IBM T40 也没啥问题;再后来 Oracle OCP 失业了,MySQL 时代来了, 大数据时代来了,AI 时代来了,一浪接一浪,总有拍死在沙滩上的,当然也有乘风破浪的弄潮儿。其实在这些 IT 大浪中,你能抓住一浪就基本生活无忧,早期 BAT 的朋友不知道是不是有钱,还看到他们天天加班,但都住着千万以上的房子,开最骚气的车。我说这些是想表达什么呢?我想说:选择比努力更重要。
MySQL DBA 和大数据从业者会有什么挑战呢?
首先我们来说一下 MySQL DBA 面临什么挑战:
MySQL 方面的技术,现在非常成熟,合理的使用基本可以做到按年计算不停机
使用 MySQL 低级错误越来越少,例如早期做 SQL 注入攻击和检测的,基本不存在了
MySQL 在现在开发架构中已经融入 Serverless , 离服务越来越近
更多的用户选择了使用云上 RDS 开局, 传统的 DBA 事情越来越少
研究 MySQL 内核上手的人也越来越多
现在有利于 MySQL DBA 的点:
国内化乙方需要一大波交付的 DBA,基本上大家都招聘 MySQL DBA 为主
K8s+ MySQL 的融合需要更多面向 IaC 方面的 DBA
有较强业务能力的 MySQL DBA 会有越来越多的机会
其实早期各个云 RDS 出现后,DBA 圈子里就有一种声音:云平台的 RDS 可能把 MySQL DBA 干掉, RDS 平台的人员还各种掩饰这个问题,现在看来是真正发生了 :) 其实这个也是可以预见的,一个云平台 RDS 开发通常在百人以上的规模,把 DBA 能想到事情,基本都可以自动化实现了。
再来说一下面向大数据人员面临的挑战:
现在来看 Hadoop 生态,基本要成为历史,笨重的 MapReduce 编程终会被 SQL 替代
传统的复杂的大数据会趋向越来越简单化,以前看大数据架构中,很多公司在重度依赖 Kafka,存储可能 40 台,中间的 Kafka + 数据洗清机器可能是 80-100 台
大数据架构师决定把数据存储几种数据库,大数据工程师每天就在应对数据的清洗和不同数据源中数据一致性的比对
业务产出不明显,但部门成本比较高,更多是面抽报表,ad-hoc 查询生活
中心化团队,容易成为瓶颈,整天奔跑在救火线上的工作模式
现在利用于大数据从业人员的点:
内心对数据质量有一定的敏感
理解不同数据的使用习惯和资源的空闲
经历过大数据业务系统的磨砺(建立在对业务有理解的基础上)
大数据平台原来那波 Hadoop 生态的,现在可能是 Hive、Hbase、HDFS 为主,HDFS 的成功,也让很多做对象存储创业的较为成功,例如 xsky 对象存储,在互联网和传统企业都占据了半壁江山。但 Hive 现在也在被很多产品所替代,比如 Doris、Clickhouse、Presto、Trino、Impala,还有国内很多基于 Greenplum 的二开产品,也有新生代云原生数仓如 Databend,都在看着这块市场。
那么 MySQL DBA 和大数据从业人员的未来在哪里?
MySQL DBA 如果不转型,现在最好的归宿是乙方数据库公司,如果能跟上节奏抓着 MySQL + K8s 或是熟悉 Terraform、SQL 自动审核类工具,了解 CI 还可以在互联网企业一战(DevOPS 运维时代真的来了,运维代码化,避免了面传口授,无法追录过程的运维时代)。其实也给了互联网 DBA 一个更大的想象空间,例如利用云轻松实现多 IDC 多中心设计,利用 metabase 轻松实现一个 CMDB + 数据控查询系统,利用 terraform 轻松把基础资源管理起来。
大数据人员现在分为两类,一类是报表展现人员,另一类是数据整理人员。比较危险的是数据整理人员,对于 Databend 这类云原生数仓( Snowflake 开源实现)中很多理念如果落地,会大大简化大数据方面人力和资产的投入,使大数据走向一个 case by case 的模式,同时又能较方便地实现各部门数据的共享、互惠。大数据人员最终会变成数据质量、数据血缘方面的专家。
Q5:现在还是不是数据方向创业的好时机?
对于数据库创业来讲,我觉得今年可能不是一个好时间,但市场也不缺乏好机会。为什么说现在不是一个好时间呢?2021 年资本差不多已经完成了数据软件的布局,很多公司甚至也是高估值拿到了融资,这个过程中也不乏一些摸鱼创业者,其实资本也都不傻,都会看明白的。我们知道对于基础架构的创业比较漫长,看海外的产品 10 年都属于正常现象,第一个 3 年能完成产品开发 + 打磨迭代到成熟,然后就是 3-4 年的生态建设,接下来 3 年才是商业收获的过程,这个过程也可以说是漫长的,对资本来讲是一个收获比较慢的过程。数据库融资方面,感觉在 2021 年 10 月份以后,资本忽然集体冷静下来了。2022 年也可以说是市场最不景气的一年,但也不要泄气,看美国成名的数据库公司也都是在经济危机时间创建的,经济危机时不知道做什么,就节衣缩食,专心做个数据库吧。
但我们需要明白,中国的数据库市场规模相对还是比较小,据 2021 年的市场评估,全球数据库市场 700 亿美元,中国市场只有 47 亿美元,仅占 5.2%。这以至于 2022 年大部分数据库公司也在忙着社区建设,更多希望通过开源带动商业发展,导致现在给我的感觉是,全球基础架构开源看中国。
国内数据库市场在面对大额采购时,各大公司的 CTO、CIO 可能至少面对 10 家以上(现在数据库估计在 400 家以上)的数据库公司在清洗,大公司的 CTO、CIO 也都是经过市场考验的战士,他们也是冷静的决策者,于是决策过程也变得更加的长。
那么现在还是不是数据库公司的创建的好机会?我觉得市场在这个冷静期,以及 2022 年资本市场环境不好,估计 2023 年会有不少数据创业公司离场,但随着达梦 IPO 成功,我估计还会让资本有点小小的冲动。另一个实际情况是 MariaDB 借壳上市到现在直接跌了差不多 70% + 。
那对于想进入数据库创业者的机会是什么样呢?
和我交流过数据创业的人,我通常给的建议是“求差异,利他人,共建生态“这三点来谋发展。2022 年在做 DTCC 规划过程中,我给唐川讲今年也可以搞一个开源秀,让在 DTCC 参考的嘉宾及公司或是想创业的伙伴有更多的爆光机会,最后经过几轮讨论后,很快就把开源小秀场落地,直至现在已经进行了 7 期,大家可以想想这个栏目为什么能做起来。我在 2022 年遇到同行问的最多一句话是:有没有质量高一点的 meetup 推荐?甚至有的公司已经开始各种地方碰瓷宣传。实质上你会发现海外真正牛 X 的产品对中国都是禁售的,中国的 IP 不能注册,中国的信用卡不支付,所以自家就不用碰了,真正做事,可以研究一下海外的产品吧,一个月 3000-4000 元的基本成本投入就可以把一个基础的数仓项目运营起来,这个放到现在国内的所有的数仓项目中都是无法实现的,真的是创业是我辈当自强。
现在看来单纯创业上来讲, 做现有数据库的改善或是增强,甚至是数据生库的服务,都比从 0 开始做一个数据库比较安全。这块在 Rust 生态有一些不错的参考,如:
ReadySet 用于提升现有数据库的性能和可用性,支持 MySQL、PostgreSQL,看到这个项目时,也让我想起了内心一直在规划的 update server ,看看别人已经实现了。
Polars 轻量级 DataFrame,这块今年美团基于 Databend 社区的 databend-meta 也搞了一个类似的工具,感觉也是挺赞的,这块也是 Databend 2023 的规划之一。
我觉得这些是有绝对的生命力,也是对社区和业务是有绝对帮助的。如果你一定要在这个方面创业,你也可以考虑这些方向,例如我现在也比较看好的:
Tapdata 实时数据同步工具,有点把 Oracle 的 Golden Gate SAAS 化的感觉
sqlpad[3] 网页版本的 SQL 编辑器
类似于 Metabase 的商业化支持:衡石科技(可能已经比 Metabase 强大了)
另外,如果对数据库方面创业有较强的执念,可以先想清楚定位,不能只把生意定位在国内还是海外,一定要想清楚做这个事情究竟可以给社会创造什么价值,这才是真正存活的下来的根本。创业的本质就是:忍人之所不能忍,能为人之所不能为。创业没有最好的时间,也没有最差的时间,这只是一种生活的方式,如果你想这一生要做点什么才无悔,就加入进来吧。数据市场上还有很多事情可以一起合作,共建这个生态。Dongxu 也是这个方向比较好的天使投资人,如果你想好了就加入进来吧。2023 年一起携手共进。
作者简介
吴炳锡,Databend 联合创始人 & 架构师,腾讯 TVP 成员,Oracle ACE-A,TGO 成员。专注 Databend 大数据分析及应用,熟悉 MySQL 生态应用。
引用链接
[1] DB-Engines Ranking - popularity ranking of relational DBMS: https://db-engines.com/en/ranking/relational+dbms
[2] DB-Engines Ranking - popularity ranking of relational DBMS: https://db-engines.com/en/ranking/relational+dbms
如果你想了解更多数据库的相关内容,欢迎关注将于 2023 年 2 月 5 日 -7 日落地北京的 QCon 全球软件开发大会。大会邀请到了 Datafuse Labs 联合创始人、前阿里云数据库内核组早期成员、前青云数据库团队负责人、开源 Databend 项目主要负责人张雁飞老师。他将在【分布式数据库】专题分会场分享《Databend:基于对象存储构建实时云原生数仓》的精彩演讲,点击此处查看大会日程。
现在购买大会门票还可参与 InfoQ 技术大会年底储值特惠活动,购票不止 7 折,咨询详情请联系小助手:15600537884(微信同电话)。
评论