QCon 演讲火热征集中,快来分享技术实践与洞见! 了解详情
写点什么

过去一年,我看到了数据库领域的十大发展趋势

朱洁

  • 2024-03-08
    北京
  • 本文字数:5096 字

    阅读完需:约 17 分钟

大小:2.54M时长:14:46
过去一年,我看到了数据库领域的十大发展趋势

过去一年,行业信心跌至冰点


2022 年中,红衫的一篇《适应与忍耐》的报告,对公司经营提出了预警,让各个公司保持现金流,重整团队,想办法增加盈利。这篇报告的推出的时间点应该是各个整个行业的拐点,大家不再期待 V 型复苏拐点,信心开始逐步跌落,2023 年初跌倒谷底和冰点。2023 年整个一年都是在艰难的慢慢恢复,各行各业普遍艰难,公司裁员加剧,就业率创新低。数据库行业 2021 年的资本盛宴开始,众多创业者刚想闯进来分一杯羹,22 年底 23 年初就结束了,应该说让从业者深刻体会到了什么是大起大落。站在 2024 年起点往回看,还是非常感慨和唏嘘。作为大起大落的亲历者,今天这篇我们一起来总结数据库行业在 2023 年的一些情况,我会尽量涉及到产品技术,厂商发展,市场环境等多个方面,受限于时间和水平不足,肯定有不少错漏之处,也欢迎大家一起探讨。接下来就正式进入正题:

趋势一:HTAP 成为主流数据库的一项基础能力


数据库技术起源于美国,中国在这个行业里面不管是市场容量,技术方面总体来说还是全面落后于美国的。所以产品技术这块国内和国外还是有很大的区别,有些方面国内非常火热,但是在国外缺完全不一样,反过来也是一样的。首先这个特别明显的就是 HTAP 和 Serverless 两项技术,HTAP 在国内比国外热,Serverless 则更是成为海外产品的 default 选项。


HTAP 概念能在国内火爆,TiDB 功不可没,甚至一度大家觉得这可能是一个细分赛道,不过经过几年下来,行业还是逐渐形成了一个共识,HTAP 是数据库的一项基础能力,而不是一个细分赛道,或者反过来说 HTAP 不足于支撑一个单独的数据库细分门类。2023 年一个重要的趋势就是各个主流数据库都把 HTAP 支持作为一项基础能力。典型的有:


23 年 10 月腾讯的 TDSQL-C 也列存索引,并把列存索引和并行查询整体包装成 HTAP 能力。

23 年 12 月百度发布 GaiaDB 4.0,重要升级就是推出列存索引和列存引擎,提升不同规模数据的查询速度,其中列存引擎最大可支持 PB 级数据的复杂分析,并且与事务处理业务严格复杂隔离。



海外这个概念提的比较少,Google AlloyDB 算是正式提过这个概念,AWS 重点宣传的是 Zero-ETL,本质上也是 HTAP 的能力,但总的来说海外对这个概念并不是特别感兴趣。

趋势二:Serveless 成为头部厂商的共识


Serverless 在美国经过 AWS 长达十余年不遗余力的宣传,早就深入人心,国内因为不同的市场环境,企业普遍还是喜欢预付费为主,所以这种弹性动态的优势就不明显,因此导致 Serverless 在国内发展缓慢。


数据库 Serverless 这块阿里发力最早,21 年就开始布局,23 年把 Serverless 作为主推方向,基本 TP,AP,NoSQL 各个方向都支持了 Serverless,甚至传统的 RDS 产品线,以及工具的 DTS 产品也开始支持 Serverless。


23 年 8 月份,腾讯的 TDSQL-C 也宣传支持 Serverless,并把主打的差异化点是可以完全释放存储,数据变成归档。业内的 Serverless 无法完全做到不使用不付费,一般实例暂停后仍然会收取高昂的存储费用,可释放存储将彻底解决这一问题。当实例暂停后,数据会进行归档存储。用户无需再为高额的分布式存储进行付费,可在原实例暂停后的存储费用上降低成本 80%。


年底的时候华为 GuassDB for MySQL 也全面商用,号称相比固定规格,Serverless 实例平均可降低使用成本超 30%,特定情况甚至有 80%+ 的成本降低。


所以从 2023 年开始,Serverless 可以说成为头部厂商的共识了,相信在接下来数据库 Serverless 会有一个长足的发展。

趋势三:国内在产品形态上部分开始领先海外


相比 HTAP,分布式产品在国内发展更充分,竞争对手很多,所以更值得说一说。分布式数据库国内 OceanBase,TiDB,PolarDB-X 都是比较有特色和竞争力的产品,其中阿里的 PolarDB-X 很早就开始布局和支持存储分离+分布式的技术,走一条存算分离,分布式一体化的技术路线。下图是阿里宣传的融合架构图:



2023 年 AWS re:Invent 上宣布推出 Aurora Limitless Database,本质上是存算分离的 Aurora 的基础上加了一层 proxy 做分布式。下图就是 AWS 的架构:



看到 AWS 这个新的发布,国内数据库圈子好一阵沸腾,觉得国内的数据库一些方面也可以领先美国厂商了。其实这个趋势并不是发生在 2023 年某一天,而是一个逐步积累的过程。早在 2020 年的时候,国内的阿里云 RDS 产品能力就比 AWS 要强,提供了三节点,双节点,单节点,拖管,半拖管等多种形态,除了 AWS 形态,产品性能,规格丰富等都比 AWS 要强。


所以这个趋势并不能说是 2023 年的新趋势,这个趋势一直在发生;但是还是非常值得放到 2023 年重大趋势中拿出来说,这个还是非常明显标志着:随着国内的工程技术能力的逐步增强,会有越来越多的产品领先美国厂商。

趋势四:AI4DB and DB4AI 成功翻红


AI4DB,DB4AI 喊了很多年,谈不上新概念,不过在 2023 年大模型的带动下,数据库和 AI 结合又有了新的想象力,大模型的巨大威力,让厂商纷纷研究数据库和大模型的结合。


首先是 23 年 8 月份,腾讯云向量数据库(Tencent Cloud Vector DB)正式上线公测。作为一款全托管的自研企业级分布式数据库服务,腾讯云向量数据库专用于存储、检索、分析多维向量数据。该数据库支持多种索引类型和相似度计算方法,单索引支持 10 亿级向量规模,可支持百万级 QPS 及毫秒级查询延迟,不过半年后,直到笔者写这篇文章的时候,腾讯的向量数据库还是没有商用。


百度也赶在年底发布了单独的自研向量数据库,百度向量数据库 VectorDB 是一款纯自研高性能、高性价比、生态丰富且即开即用的向量数据库服务。支持多种索引类型和相似度算法,百亿级向量规模,毫秒级查询延迟。百度向量数据库不仅能配合大模型打造专业知识库,还可以应用于图片搜索,音乐推荐,文本分类等领域。



23 年 12 月份,百度还发布 DBSC(数据库智能驾驶舱),这个是利用 AI 的技术,为用户提供安全审计、智能诊断与数据库管理的数据库自治服务。DBSC 利用 AI 大模型能力和专家经验实现数据库的智能化洞察、评估和优化。有效保证数据库服务的安全、稳定及高效。这块的探索应该说阿里最早,阿里的 DAS 产品在 20 年就看准了数据库安全自治工具一体化成主流趋势。百度的 DBSC 比较有特色的是提供问答诊断、工单处理、知识查找等能力的智能手,这个能力其实是非常考验产品知识的积累的。


NoSQL 这块阿里的 Lindorm 直接简单粗暴的将大模型内置到系统里面,支持以图搜图功能,应该说是一种探索,不过总体觉得还是比较难做出特色和实用价值的。


美国的 AWS 利用 AI 增强 ETL 能力,Google 利用大模型实现代码改写能力,也是在这个方向发力,国内的也有创业公司跟进,不过目前离成熟还需要一些时间。

趋势五:云厂商开始发挥软硬件垂直整合优势


应该说云厂商本质上先革 IDC 的名,再革各种基础软件的命,要相比客户自建有明显的优势,推出自研,走垂直整合是必选道路。前一个非常成功的 2C 厂商是苹果,2B AWS 也是复制这条道路。国内总体差距比较大,云厂商里面华为,阿里跟进的比较快,都推出了 ARM 系列芯片,国内目前最强的应该是华为的鲲鹏系列。


2023 年开始阿里的全线主力产品都进行了适配,阿里发布的 RDS 经济版本就是 适配 ARM 系列,基于倚天/ARM 芯片服务器上持续优化,提高性能,定价则是只有 X86 实力的 60%~70% 的价格,通过性价比吸引用户尝鲜和试用。应该说短期内 ARM 的能力还不够,所以是经济版本,长期看,ARM 应该要能能力迭代更快,长期发挥比 X86 更好的能力。如果走向这一天,云厂商的相比自建客户的优势将进一步拉大。


华为、阿里的动作标志着云厂商 2023 年也开始发挥垂直整合的优势,不过总体来说国内的发展水平相对美国还是差距比较大。

趋势六:RDS 还是常青大盘产品,NoSQL 创新相对较少


2023 年我们观察到,NoSQL 是随着互联网场景诞生的,随着十多年的发展,开始碰到一定的创新瓶颈了。反过来关系型数据库都纷纷一定程度上吸收了 NoSQL 在性能,分布式,高可用的优势,关系型数据库反倒有不少进展。


阿里云栖大会,集中展示了阿里 RDS 的进展,包括解决通用云盘 IOPS 和容量解耦的问题,通过冷温热数据分层,读写性能提高 102%,存储成本降低 90%。内核层面也有创新,通过 binlog 并行解析,缩短 crash/recovery 时间,改进 RTO 事件,支持表级别、行级别压缩;冷温热数据分层,降低客户使用成本等等。应该说从产品形态,计费,内核全方面进行了改进。


整个行业在 NoSQL 这块相对而言就乏善可陈了。


另外 中立厂商 NineData 进行了第三方公开 RDS sysbench 测试,华为云,百度云分列第一二位,反而不是大家理解的阿里、腾讯。说明在这个领域国内云厂商竞争还是非常激烈的,阿里腾讯保持优势也还是非常困难的。也说明这个领域发展还是比较快的。应该说 RDS 仍能是常青大盘型产品。NoSQL 主要是向量数据库有一些发展,期待传统的缓存,文档数据库以及一些细分时序,图等领域有更多的创新点。

趋势七:国产数据库纷纷演进 RAC 架构,企图突破集中式架构


RAC 架构是 Oracle 经典架构,在 Oracle 10/11 就已经推出。


互联网厂商因为数据量特别大,Oracle license 又特别贵,所以纷纷用 MySQL,叠加各种分布式技术来实现 Oracle 的替代,这就是轰轰烈烈的去 IOE。所以在过去的一段时间,有认为 RAC 就是落后的代表,但是随着时间的发展,大家还是纷纷发现,一般的企业不一定需要那么大的数据量,在这种场景下 RAC 优势就比较明显了。


所以 2023 年在私有化场景上有一个非常明显的趋势,就是国产数据库厂商纷纷发布了类似 RAC 技术的产品。典型的有达梦 DSC 已经在部分用户那边商用了,优璇再次发布了 SuperRAC,人大金仓也很快会推出共享存储多读多写的产品,高斯的 RAC 版本已经在路上了,虚谷伟业的 RAC 也在开发中。


但同时有意思的是,国内纷纷支持 RAC, 2023 年 oracle 原厂开始宣布支持分布式能力。所以说技术关键还是看场景,适合的场景选择适合的技术,未来大概率通用数据库会走的道路是分布式存算分离一体化的道路,给客户丰富的选择。


趋势八:国内融资环境异常艰难


前面讲的都是技术方面的,除了技术外,市场环境,厂商发展在 2023 年也是精彩纷呈,值得一看,接下来说几个关键点。


首先就是 2023 年国内的融资环境异常艰难,相对于 2021 年的高歌猛进,2023 年异常冰冷,市场上绝大部份公司都很难融资,只有少数的公司获得融资,而且金额也不是很高。


所以我们会看到国内很多大佬纷纷下场,预言 2027 年国内数据库厂商十家,二十家左右。应该说国内数据库厂商现在是有点多了,近 300 个数据库,200 家厂商,而数据库又是一个非常通用的产品,所以是非常难容得下这么多的厂商的,至于是十家,还是二十家不关键;关键是怎么在这个残酷的市场竞争力活下来是非常考验的。


总的来说,我相信最有创新能力,客户服务能力强的厂商会活下来。

趋势九:信创提速


信创从 2019 年大力推行以来,金融行业走的最快,金融行业基本完成了大行,股份制的划分,推进到了中小行。国家在推动信创目录上也是动作频频。12 月刚公布的新一轮信创目录:

http://www.itsec.gov.cn/aqkkcp/ywjs/


另外除了金融行业,明显看到其他关键行业如电信、电力都加快了信创的速度。现在信创最大的问题还是竞争太激烈,导致没有一个实际赚到钱的厂商。大概估计数据库研发人均收入还不足 50 万,离健康的 500 万差 10 倍以上。


信创就是个双刃剑,给了数据库厂商希望,估计未来大量倒闭的也是出在这个领域。

趋势十:头部独立厂商商业化能力越来越强

最后一个趋势,留给在数据库行业挣扎的企业。


应该说宏观环境很不好,但是头部厂商还是持之以恒的突破。像 OB 加大了公有云投入,获得了一些标杆客户,像包括新零售行业的海底捞、二维火和客如云,制造业的理想汽车,互联网行业的高德、携程、快手、作业帮、翼鸥教育、GCash,以及跨境行业的洋葱集团、纵腾集团、递四方等。


TiDB 还在持续拓展海外客户,包括尝试 Serverless 等,和 AWS 合作在客户上也有不错的进展。


国内深圳计算所推出的崖山数据库,是今年的异军突起,有一些标杆客户,主打 Oracle 兼容,包括推出个人版已向所有用户和开发者全面开放下载,大家可以去尝试使用一下。

2024 年,数据库领域将是柳暗花明又一村


2023 艰难的一年过去,迎来了有希望的 2024 年。展望 2024,我们判断未来会有这么几个大的趋势:


  • AI 代码改写会越来越成熟,Oracle 转 MySQL,PG 预计会变得很简单。

  • 向量数据库会走向更务实的实用阶段,预计在智能问答,助手等领域会有更多实际应用。

  • 存算分离和分库分表分布式技术会走向融合。

  • 1~2 年之内,Serverless 在国内会变得很普及,各个云厂商都预计会推出 serveless 数据库产品。

  • 数据仓库领域,湖仓一体化,会成为数据仓库的主要形态,形成共识。

  • 2024 年应该会是数据库的转折点,有一些数据库厂商会被淘汰。


2024-03-08 15:2210255

评论

发布
暂无评论
发现更多内容

云起无垠荣获“北京市2024年第三季度专精特新中小企业”称号

云起无垠

2024 TiDB 社区年度总结,又携手共进了一年,2025年,一起迎接变化,挑战变化!

TiDB 社区干货传送门

兼具个人成长、科技新知、文学艺术,这份华为阅读新春书单请查收

最新动态

Kmesh v1.0正式发布!稳定易用的高性能Sidecarless服务网格

华为云原生团队

云计算 容器 云原生

iDownerGo for Mac(强大的视频下载工具)

Mac相关知识分享

追觅H40 Pro和T40 pro哪个好

妙龙

洗地机

从Tiktok 用户涌入小红书事件看OLTP 数据库如何应对突发流量

晨章数据

NoSQL 数据库 kv 数据库、

Downie 4 for Mac(视频下载工具)中文版

Mac相关知识分享

喜讯!云起无垠获评“国家高新技术企业”认证

云起无垠

hyper-v xp,hyper-v 的基本概念

柳岸风吟

海信85E5N Pro+和85E8N Pro对比评测

妙龙

智能电视 海信电视 家用电视

海信75E7N和75E8NPro选哪个

妙龙

智能电视 海信电视 家用电视

Sketch for mac(专业矢量绘图设计软件)

Mac相关知识分享

KwaiCoder-23BA4-v1:以 1/30 的成本训练全尺寸 SOTA 代码续写大模型

快手技术

人工智能 快手 #大模型 Kwaipilot 代码续写大模型

人设崩塌还是对行业心寒?ZachXBT:这么多年终究是错付了

TechubNews

比特币 加密市场

QCN9074: Your Gateway to Faster Internet Speeds

wallyslilly

艺术藏品NFT的开发流程

北京木奇移动技术有限公司

软件外包公司 音乐NFT 体育NFT

Dropzone 4 for mac(文件拖拽增强工具)

Mac相关知识分享

腾讯面试:大厂必问消息队列场景面试题

王中阳Go

腾讯 消息队列 面试问题

私有云 电脑,私有云存储的详细搭建教程

柳岸风吟

DNS解析防护应措施有哪些?

国科云

改变财务规划思维方式,迎接创新技术新时代

智达方通

财务分析 预算管理 财务规划 创新技术

利用大语言模型(LLM)增强软件测试自动化的最佳实践

测试人

软件测试

Mach Desktop 4K for Mac(4k动态壁纸软件)

Mac相关知识分享

PDF Reader Pro for mac(全能pdf编辑阅读软件)

Mac相关知识分享

艺术藏品NFT的开发流程

北京木奇移动技术有限公司

软件外包公司 音乐NFT 体育NFT

Aiarty Image Matting for Mac(AI图像抠图工具)

Mac相关知识分享

百度智能云曦灵推出春节功能:一张照片即可生成拜年视频!

科技热闻

陪玩预约系统搭建,打造专业游戏陪玩平台 聚焦游戏畅玩,定制专属陪玩预约

DUOKE七七

hyper-v 教程,hyper-v的安装教程是怎样的

柳岸风吟

一次线上生产库的全流程切换完整方案

京东零售技术

后端

过去一年,我看到了数据库领域的十大发展趋势_数据湖仓_InfoQ精选文章