写点什么

过去一年,我看到了数据库领域的十大发展趋势

朱洁

  • 2024-03-08
    北京
  • 本文字数:5096 字

    阅读完需:约 17 分钟

大小:2.54M时长:14:46
过去一年,我看到了数据库领域的十大发展趋势

过去一年,行业信心跌至冰点


2022 年中,红衫的一篇《适应与忍耐》的报告,对公司经营提出了预警,让各个公司保持现金流,重整团队,想办法增加盈利。这篇报告的推出的时间点应该是各个整个行业的拐点,大家不再期待 V 型复苏拐点,信心开始逐步跌落,2023 年初跌倒谷底和冰点。2023 年整个一年都是在艰难的慢慢恢复,各行各业普遍艰难,公司裁员加剧,就业率创新低。数据库行业 2021 年的资本盛宴开始,众多创业者刚想闯进来分一杯羹,22 年底 23 年初就结束了,应该说让从业者深刻体会到了什么是大起大落。站在 2024 年起点往回看,还是非常感慨和唏嘘。作为大起大落的亲历者,今天这篇我们一起来总结数据库行业在 2023 年的一些情况,我会尽量涉及到产品技术,厂商发展,市场环境等多个方面,受限于时间和水平不足,肯定有不少错漏之处,也欢迎大家一起探讨。接下来就正式进入正题:

趋势一:HTAP 成为主流数据库的一项基础能力


数据库技术起源于美国,中国在这个行业里面不管是市场容量,技术方面总体来说还是全面落后于美国的。所以产品技术这块国内和国外还是有很大的区别,有些方面国内非常火热,但是在国外缺完全不一样,反过来也是一样的。首先这个特别明显的就是 HTAP 和 Serverless 两项技术,HTAP 在国内比国外热,Serverless 则更是成为海外产品的 default 选项。


HTAP 概念能在国内火爆,TiDB 功不可没,甚至一度大家觉得这可能是一个细分赛道,不过经过几年下来,行业还是逐渐形成了一个共识,HTAP 是数据库的一项基础能力,而不是一个细分赛道,或者反过来说 HTAP 不足于支撑一个单独的数据库细分门类。2023 年一个重要的趋势就是各个主流数据库都把 HTAP 支持作为一项基础能力。典型的有:


23 年 10 月腾讯的 TDSQL-C 也列存索引,并把列存索引和并行查询整体包装成 HTAP 能力。

23 年 12 月百度发布 GaiaDB 4.0,重要升级就是推出列存索引和列存引擎,提升不同规模数据的查询速度,其中列存引擎最大可支持 PB 级数据的复杂分析,并且与事务处理业务严格复杂隔离。



海外这个概念提的比较少,Google AlloyDB 算是正式提过这个概念,AWS 重点宣传的是 Zero-ETL,本质上也是 HTAP 的能力,但总的来说海外对这个概念并不是特别感兴趣。

趋势二:Serveless 成为头部厂商的共识


Serverless 在美国经过 AWS 长达十余年不遗余力的宣传,早就深入人心,国内因为不同的市场环境,企业普遍还是喜欢预付费为主,所以这种弹性动态的优势就不明显,因此导致 Serverless 在国内发展缓慢。


数据库 Serverless 这块阿里发力最早,21 年就开始布局,23 年把 Serverless 作为主推方向,基本 TP,AP,NoSQL 各个方向都支持了 Serverless,甚至传统的 RDS 产品线,以及工具的 DTS 产品也开始支持 Serverless。


23 年 8 月份,腾讯的 TDSQL-C 也宣传支持 Serverless,并把主打的差异化点是可以完全释放存储,数据变成归档。业内的 Serverless 无法完全做到不使用不付费,一般实例暂停后仍然会收取高昂的存储费用,可释放存储将彻底解决这一问题。当实例暂停后,数据会进行归档存储。用户无需再为高额的分布式存储进行付费,可在原实例暂停后的存储费用上降低成本 80%。


年底的时候华为 GuassDB for MySQL 也全面商用,号称相比固定规格,Serverless 实例平均可降低使用成本超 30%,特定情况甚至有 80%+ 的成本降低。


所以从 2023 年开始,Serverless 可以说成为头部厂商的共识了,相信在接下来数据库 Serverless 会有一个长足的发展。

趋势三:国内在产品形态上部分开始领先海外


相比 HTAP,分布式产品在国内发展更充分,竞争对手很多,所以更值得说一说。分布式数据库国内 OceanBase,TiDB,PolarDB-X 都是比较有特色和竞争力的产品,其中阿里的 PolarDB-X 很早就开始布局和支持存储分离+分布式的技术,走一条存算分离,分布式一体化的技术路线。下图是阿里宣传的融合架构图:



2023 年 AWS re:Invent 上宣布推出 Aurora Limitless Database,本质上是存算分离的 Aurora 的基础上加了一层 proxy 做分布式。下图就是 AWS 的架构:



看到 AWS 这个新的发布,国内数据库圈子好一阵沸腾,觉得国内的数据库一些方面也可以领先美国厂商了。其实这个趋势并不是发生在 2023 年某一天,而是一个逐步积累的过程。早在 2020 年的时候,国内的阿里云 RDS 产品能力就比 AWS 要强,提供了三节点,双节点,单节点,拖管,半拖管等多种形态,除了 AWS 形态,产品性能,规格丰富等都比 AWS 要强。


所以这个趋势并不能说是 2023 年的新趋势,这个趋势一直在发生;但是还是非常值得放到 2023 年重大趋势中拿出来说,这个还是非常明显标志着:随着国内的工程技术能力的逐步增强,会有越来越多的产品领先美国厂商。

趋势四:AI4DB and DB4AI 成功翻红


AI4DB,DB4AI 喊了很多年,谈不上新概念,不过在 2023 年大模型的带动下,数据库和 AI 结合又有了新的想象力,大模型的巨大威力,让厂商纷纷研究数据库和大模型的结合。


首先是 23 年 8 月份,腾讯云向量数据库(Tencent Cloud Vector DB)正式上线公测。作为一款全托管的自研企业级分布式数据库服务,腾讯云向量数据库专用于存储、检索、分析多维向量数据。该数据库支持多种索引类型和相似度计算方法,单索引支持 10 亿级向量规模,可支持百万级 QPS 及毫秒级查询延迟,不过半年后,直到笔者写这篇文章的时候,腾讯的向量数据库还是没有商用。


百度也赶在年底发布了单独的自研向量数据库,百度向量数据库 VectorDB 是一款纯自研高性能、高性价比、生态丰富且即开即用的向量数据库服务。支持多种索引类型和相似度算法,百亿级向量规模,毫秒级查询延迟。百度向量数据库不仅能配合大模型打造专业知识库,还可以应用于图片搜索,音乐推荐,文本分类等领域。



23 年 12 月份,百度还发布 DBSC(数据库智能驾驶舱),这个是利用 AI 的技术,为用户提供安全审计、智能诊断与数据库管理的数据库自治服务。DBSC 利用 AI 大模型能力和专家经验实现数据库的智能化洞察、评估和优化。有效保证数据库服务的安全、稳定及高效。这块的探索应该说阿里最早,阿里的 DAS 产品在 20 年就看准了数据库安全自治工具一体化成主流趋势。百度的 DBSC 比较有特色的是提供问答诊断、工单处理、知识查找等能力的智能手,这个能力其实是非常考验产品知识的积累的。


NoSQL 这块阿里的 Lindorm 直接简单粗暴的将大模型内置到系统里面,支持以图搜图功能,应该说是一种探索,不过总体觉得还是比较难做出特色和实用价值的。


美国的 AWS 利用 AI 增强 ETL 能力,Google 利用大模型实现代码改写能力,也是在这个方向发力,国内的也有创业公司跟进,不过目前离成熟还需要一些时间。

趋势五:云厂商开始发挥软硬件垂直整合优势


应该说云厂商本质上先革 IDC 的名,再革各种基础软件的命,要相比客户自建有明显的优势,推出自研,走垂直整合是必选道路。前一个非常成功的 2C 厂商是苹果,2B AWS 也是复制这条道路。国内总体差距比较大,云厂商里面华为,阿里跟进的比较快,都推出了 ARM 系列芯片,国内目前最强的应该是华为的鲲鹏系列。


2023 年开始阿里的全线主力产品都进行了适配,阿里发布的 RDS 经济版本就是 适配 ARM 系列,基于倚天/ARM 芯片服务器上持续优化,提高性能,定价则是只有 X86 实力的 60%~70% 的价格,通过性价比吸引用户尝鲜和试用。应该说短期内 ARM 的能力还不够,所以是经济版本,长期看,ARM 应该要能能力迭代更快,长期发挥比 X86 更好的能力。如果走向这一天,云厂商的相比自建客户的优势将进一步拉大。


华为、阿里的动作标志着云厂商 2023 年也开始发挥垂直整合的优势,不过总体来说国内的发展水平相对美国还是差距比较大。

趋势六:RDS 还是常青大盘产品,NoSQL 创新相对较少


2023 年我们观察到,NoSQL 是随着互联网场景诞生的,随着十多年的发展,开始碰到一定的创新瓶颈了。反过来关系型数据库都纷纷一定程度上吸收了 NoSQL 在性能,分布式,高可用的优势,关系型数据库反倒有不少进展。


阿里云栖大会,集中展示了阿里 RDS 的进展,包括解决通用云盘 IOPS 和容量解耦的问题,通过冷温热数据分层,读写性能提高 102%,存储成本降低 90%。内核层面也有创新,通过 binlog 并行解析,缩短 crash/recovery 时间,改进 RTO 事件,支持表级别、行级别压缩;冷温热数据分层,降低客户使用成本等等。应该说从产品形态,计费,内核全方面进行了改进。


整个行业在 NoSQL 这块相对而言就乏善可陈了。


另外 中立厂商 NineData 进行了第三方公开 RDS sysbench 测试,华为云,百度云分列第一二位,反而不是大家理解的阿里、腾讯。说明在这个领域国内云厂商竞争还是非常激烈的,阿里腾讯保持优势也还是非常困难的。也说明这个领域发展还是比较快的。应该说 RDS 仍能是常青大盘型产品。NoSQL 主要是向量数据库有一些发展,期待传统的缓存,文档数据库以及一些细分时序,图等领域有更多的创新点。

趋势七:国产数据库纷纷演进 RAC 架构,企图突破集中式架构


RAC 架构是 Oracle 经典架构,在 Oracle 10/11 就已经推出。


互联网厂商因为数据量特别大,Oracle license 又特别贵,所以纷纷用 MySQL,叠加各种分布式技术来实现 Oracle 的替代,这就是轰轰烈烈的去 IOE。所以在过去的一段时间,有认为 RAC 就是落后的代表,但是随着时间的发展,大家还是纷纷发现,一般的企业不一定需要那么大的数据量,在这种场景下 RAC 优势就比较明显了。


所以 2023 年在私有化场景上有一个非常明显的趋势,就是国产数据库厂商纷纷发布了类似 RAC 技术的产品。典型的有达梦 DSC 已经在部分用户那边商用了,优璇再次发布了 SuperRAC,人大金仓也很快会推出共享存储多读多写的产品,高斯的 RAC 版本已经在路上了,虚谷伟业的 RAC 也在开发中。


但同时有意思的是,国内纷纷支持 RAC, 2023 年 oracle 原厂开始宣布支持分布式能力。所以说技术关键还是看场景,适合的场景选择适合的技术,未来大概率通用数据库会走的道路是分布式存算分离一体化的道路,给客户丰富的选择。


趋势八:国内融资环境异常艰难


前面讲的都是技术方面的,除了技术外,市场环境,厂商发展在 2023 年也是精彩纷呈,值得一看,接下来说几个关键点。


首先就是 2023 年国内的融资环境异常艰难,相对于 2021 年的高歌猛进,2023 年异常冰冷,市场上绝大部份公司都很难融资,只有少数的公司获得融资,而且金额也不是很高。


所以我们会看到国内很多大佬纷纷下场,预言 2027 年国内数据库厂商十家,二十家左右。应该说国内数据库厂商现在是有点多了,近 300 个数据库,200 家厂商,而数据库又是一个非常通用的产品,所以是非常难容得下这么多的厂商的,至于是十家,还是二十家不关键;关键是怎么在这个残酷的市场竞争力活下来是非常考验的。


总的来说,我相信最有创新能力,客户服务能力强的厂商会活下来。

趋势九:信创提速


信创从 2019 年大力推行以来,金融行业走的最快,金融行业基本完成了大行,股份制的划分,推进到了中小行。国家在推动信创目录上也是动作频频。12 月刚公布的新一轮信创目录:

http://www.itsec.gov.cn/aqkkcp/ywjs/


另外除了金融行业,明显看到其他关键行业如电信、电力都加快了信创的速度。现在信创最大的问题还是竞争太激烈,导致没有一个实际赚到钱的厂商。大概估计数据库研发人均收入还不足 50 万,离健康的 500 万差 10 倍以上。


信创就是个双刃剑,给了数据库厂商希望,估计未来大量倒闭的也是出在这个领域。

趋势十:头部独立厂商商业化能力越来越强

最后一个趋势,留给在数据库行业挣扎的企业。


应该说宏观环境很不好,但是头部厂商还是持之以恒的突破。像 OB 加大了公有云投入,获得了一些标杆客户,像包括新零售行业的海底捞、二维火和客如云,制造业的理想汽车,互联网行业的高德、携程、快手、作业帮、翼鸥教育、GCash,以及跨境行业的洋葱集团、纵腾集团、递四方等。


TiDB 还在持续拓展海外客户,包括尝试 Serverless 等,和 AWS 合作在客户上也有不错的进展。


国内深圳计算所推出的崖山数据库,是今年的异军突起,有一些标杆客户,主打 Oracle 兼容,包括推出个人版已向所有用户和开发者全面开放下载,大家可以去尝试使用一下。

2024 年,数据库领域将是柳暗花明又一村


2023 艰难的一年过去,迎来了有希望的 2024 年。展望 2024,我们判断未来会有这么几个大的趋势:


  • AI 代码改写会越来越成熟,Oracle 转 MySQL,PG 预计会变得很简单。

  • 向量数据库会走向更务实的实用阶段,预计在智能问答,助手等领域会有更多实际应用。

  • 存算分离和分库分表分布式技术会走向融合。

  • 1~2 年之内,Serverless 在国内会变得很普及,各个云厂商都预计会推出 serveless 数据库产品。

  • 数据仓库领域,湖仓一体化,会成为数据仓库的主要形态,形成共识。

  • 2024 年应该会是数据库的转折点,有一些数据库厂商会被淘汰。


2024-03-08 15:2210371

评论

发布
暂无评论
发现更多内容

轻松应用RapidMiner 内置案例模板实现数据挖掘详解(上篇)

Altair RapidMiner

人工智能 AI 数据分析 可视化 altair

PhotosBlender for Mac(图片合成工具)v2.0.2激活版

iMac小白

My PaintBrush Pro专业版for Mac(mac绘图软件)v2.4.5激活版

iMac小白

rust:工具常用的命令

高端章鱼哥

开发PGC + UGC模式的体育赛事直播平台,推动行业创新与进步

软件开发-梦幻运营部

Xliff Editor for mac 2.11激活版 Xliff编辑器软件

iMac小白

VMware ESXi 8.0U3 macOS Unlocker & OEM BIOS Marvell AQC 网卡驱动定制版

sysin

macos esxi OEM BIOS aqc

iBarcoder for mac v3.15.5中文激活版 条形码生成工具

iMac小白

华为云发起,openGemini正式成为CNCF官方项目!

华为云开源

云原生 时序数据库 cncf openGemini 华为云开源

你真的了解Java内存模型JMM吗?

不在线第一只蜗牛

Java JMM

gamma生成ppt中文版来袭,让你的PPT分分钟颜值在线!

彭宏豪95

人工智能 PPT AIGC AI生成PPT Gamma

Iris for Mac v1.7.2激活版 屏幕录像软件

iMac小白

企业协同办公+应用开发平台:推动数字化转型的新引擎

不在线第一只蜗牛

低代码 数字化 企业团队协同

腾讯云流计算 Oceanus:新版弹性方案,助力实时业务降本超30%

腾讯云大数据

流计算 Oceanus

英特尔代工合作伙伴为EMIB先进封装技术提供参考流程

E科讯

淘宝详情的 API 探秘:获取与运用全攻略

Noah

重磅发布 | 中国信通院首个“低代码&无代码产业双象限”正式发布!共计34家企业上榜!

信通院IOMM数字化转型团队

低代码 无代码 低代码平台 无代码平台 企业数字化转型发展双象限

多模态人工智能是什么?

心大陆多智能体

智能体 AI大模型 多模态 心理健康 数字心理

Sync Folders Pro 4.7.5中文激活版 文件夹数据同步工具

iMac小白

非营利组织的数据治理之路

郑州埃文科技

数据治理

针对企业级应用复杂性的低代码开发平台架构

快乐非自愿限量之名

低代码 开发架构

AI视频创作一条龙!达摩院“寻光”平台炸场WAIC,突破可控编辑难题

Openlab_cosmoplat

人工智能 AI 视频

djay Pro AI 5.2.0激活版 DJ音乐混合器软件

iMac小白

企业数字化转型中的低代码开发平台应用:释放创新潜能

EquatorCoco

低代码 数字化

淘宝/天猫商品详情API接口与电商数据仓库的实时同步实践

技术冰糖葫芦

API Explorer API 文档 API 协议 pinduoduo API

OmniOutliner 5 Pro for Mac(信息大纲记录工具)v5.13正式版

iMac小白

倒计时 2 周!CommunityOverCode Asia 2024 IoT & Community 专题部分

Greptime 格睿科技

Apache 数据库 IoT 社区 apache 社区

销售“混圈子”的4个大坑以及避坑的方法

客户在哪儿AI

ToB营销 圈子营销 ToB获客 ToB增长

解码技术债:AI代码助手与智能体的革新之道

快乐非自愿限量之名

人工智能 AI

产品/项目经理必备:2024年最佳项目管理软件推荐

爱吃小舅的鱼

项目管理 项目管理软件

过去一年,我看到了数据库领域的十大发展趋势_数据湖仓_InfoQ精选文章